تشخیص صفحات اسپم با استفاده از الگوریتم XGBoost
محورهای موضوعی : مهندسی برق و کامپیوترریحانه رشیدپور 1 * , علی محمد زارع بیدکی 2
1 - دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران
2 - دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران
کلید واژه: اسپم وب, الگوریتم دستهبندی XGBoost, متوازنسازی داده, یادگیری ماشین.,
چکیده مقاله :
امروزه موتورهای جستجو دروازه ورود به وب هستند. با افزایش محبوبیت وب، تلاش برای بهرهبرداری تجاری، اجتماعی و سیاسی از وب نیز افزایش یافته و در نتیجه تشخیص یک محتوای خوب از اسپم برای موتورهای جستجو دشوار شده است. مفهوم اسپم وب نخستین بار در سال 1996 معرفی شد و خیلی زود به عنوان یکی از چالشهای کلیدی برای صنعت موتور جستجو شناخته شد. پدیده اسپم اساساً به این دلیل اتفاق میافتد که بخش قابل توجهی از مراجعات به صفحه وب از موتور جستجو میآیند و کاربران تمایل به بررسی اولین نتایج جستجو دارند. هدف از شناسایی صفحات اسپم این است که این صفحات با استفاده از استراتژیهای فریب قادر به کسب رتبه بالا نباشند. تلاش ما ارائه روشی مؤثر در شناسایی صفحات اسپم و در نتیجه کاهش حضور اسپم در نتایج اول جستجوست. در این مقاله دو روش برای مقابله با اسپم وب پیشنهاد شده است. روش اول به نام XGspam صفحات اسپم را بر اساس الگوریتم یادگیری XGBoost با دقت 27/94% شناسایی میکند. در روش دوم به نام XGSspam راهکاری برای چالش نامتوازنبودن دادههای وب با استفاده از ترکیب الگوریتم بیشنمونهبرداری SMOTE با مدل دستهبندی XGBoost ارائه شده که به دقت 44/95% در شناسایی صفحات اسپم میرسد.
Today, search engines are the gateway to the web. With the increasing popularity of the web, the efforts to exploit it for commercial, social, and political purposes have also increased, making it difficult for search engines to distinguish good content from spam. The concept of web spam was first introduced in 1996 and quickly became recognized as one of the key challenges for the search engine industry. The phenomenon of spam occurs primarily because a significant portion of web page visits comes from search engines, and users tend to check the first search results. The goal of identifying spam pages is to ensure that these pages cannot achieve high rankings using deceptive strategies. Our effort is to provide an effective method for identifying spam pages, thereby reducing the presence of spam in the top search results. In this article, two methods for combating web spam are proposed. The first method, called XGspam, identifies spam pages based on the XGBoost learning algorithm with an accuracy of 94.27%. The second method, named XGSspam, offers a solution to the challenge of imbalanced web data by combining the SMOTE oversampling algorithm with the XGBoost classification model, achieving an accuracy of 95.44% in identifying spam pages.
[1] E. Convey, "Porn sneaks way back on web," The Boston Herald, vol. 28, 1996.
[2] M. De Kunder, "he Size of the World Wide Web (The Internet), https://www.worldwidewebsize.com, Retrived 2024. [3] A. Shahzad, N. M. Nawi, M. Z. Rehman, and A. Khan, "An improved framework for content‐and link‐based web‐spam detection: a combined approach," Complexity, vol. 2021, Article ID: 6625739, 18 pp., 2021.
[4] C. Castillo, Web Spam Collections, https://chato.cl/webspam/datasets/uk2007, Retrived 2024.
[5] T. Chen and C. Guestrin, "Xgboost: a scalable tree boosting system," in Proc. ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pp. 785-794, San Francisco, CA, USA, 13-17 Aug. 2016.
[6] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique," Artificial Intelligence Research, vol. 16, no. 1, pp. 321-357, Jan. 2002.
[7] J. Liu, Y. Su, S. Lv, and C. Huang, "Detecting web spam based on novel features from web page source code," Security and Communication Networks, vol. 2020, Article ID: 6662166, 14 pp., 2020.
[8] F. Asdaghi and A. Soleimani, "An effective feature selection method for web spam detection," Knowledge-Based Systems, vol. 166, pp. 198-206, Feb. 2019.
[9] A. Ntoulas, M. Najork, M. Manasse, and D. Fetterly, "Detecting spam web pages through content analysis," in Proc. World Wide Web, pp. 83-92, Edinburgh, Scotland, 23-26 May 2006.
[10] L. Becchetti, C. Castillo, D. Donato, S. Leonardi, and R. Baeza-Yates, "Using rank propagation and probabilistic counting for link-based spam detection," in Proc. the WebKDD, 10 pp., 2006.
[11] R. Baeza-Yates, P. Boldi, and C. Castillo, "Generalizing PageRank: damping functions for link-based ranking algorithms," in Proc. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 308-315, Seattle, WA, USA, 6-11 Aug. 2006.
[12] M. Yu, J. Zhang, J. Wang, J. Gao, T. Xu, and R. Yu, "The research of spam web page detection method based on web page differentiation and concrete clusters centers," in Proc. Int. Conf. on Wireless Algorithms, Systems, and Applications, pp. 820-826, Tianjin, China, 20-22 Jun. 2018.
[13] J. J. Whang, Y. S. Jeong, I. Dhillon, S. Kang, and J. Lee, "Fast asynchronous antitrust rank for web spam detection," in Proc. WSDM Workshop on Misinformation and Misbehavior Mining on the Web, 4 pp., Marina Del Rey, CA, USA, 5-9 Feb. 2018.
[14] Z. Gyöngyi, H. Garcia-Molina, and J. Pedersen, "Combating web spam with trustrank," in Proc.Very Large Data Bases, vol. 30, pp. 576-587, Toronto, Canada, 31 Aug.-3 Sept. 2004.
[15] M. Sobek, Pr0-Google’s Pagerank 0 Penalty, http://pr.efactory.de/e-pr0.shtml, Retrived 2024.
[16] D. Liu and J. Lee, "CNN based malicious website detection by invalidating multiple web spams," IEEE Access, vol. 8, pp. 97258-97266, 2020.
[17] X. Zhuang, Y. Zhu, Q. Peng, and F. Khurshid, "Using deep belief network to demote web spam," Future Generation Computer Systems, vol. 118, pp. 94-106, May 2021.
[18] C. Wei, Y. Liu, M. Zhang, S. Ma, L. Ru, and K. Zhang, "Fighting against web spam: a novel propagation method based on click-through data," in Proc. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 395-404, Portland, ON, USA, 12-16 Aug. 2012.
[19] A. Heydari, M. A. Tavakoli, N. Salim, and Z. Heydari, "Detection of review spam: a survey," Expert Systems with Applications, vol. 42, no. 7, pp. 3634-3642, May 2015.
[20] S. Brin and L. Page, "The anatomy of a large-scale hypertextual web search engine," Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117, Apr. 1998.
[21] D. Sculley, Kaggle: Your Machine Learning and Data Science Community, https://www.kaggle.com, Retrived 2024.
[22] X. Ren, Knowledge Dscovery in Data and Data-Mining, https://kdd.org/, Retrieved 2024.
[23] T. Wongvorachan, S. He, and O. Bulut, "A comparison of undersampling, oversampling, and SMOTE methods for dealing with imbalanced classification in educational data mining," Information, vol. 14, no. 1, Article ID: 54, 2023.
[24] Y. Zhang, L. Deng, and B. Wei, "Imbalanced data classification based on improved random-SMOTE and feature standard deviation," Mathematics, vol. 12, no. 11, Article ID: 1709, 2024.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 22، شماره 4، زمستان 1403 287
مقاله پژوهشی
تشخیص صفحات اسپم با استفاده از الگوریتم XGBoost
ریحانه رشیدپور و علیمحمد زارع بیدکی
چکیده: امروزه موتورهای جستجو دروازه ورود به وب هستند. با افزایش محبوبیت وب، تلاش برای بهرهبرداری تجاری، اجتماعی و سیاسی از وب نیز افزایش یافته و در نتیجه تشخیص یک محتوای خوب از اسپم برای موتورهای جستجو دشوار شده است. مفهوم اسپم وب نخستین بار در سال 1996 معرفی شد و خیلی زود به عنوان یکی از چالشهای کلیدی برای صنعت موتور جستجو شناخته شد. پدیده اسپم اساساً به این دلیل اتفاق میافتد که بخش قابل توجهی از مراجعات به صفحه وب از موتور جستجو میآیند و کاربران تمایل به بررسی اولین نتایج جستجو دارند. هدف از شناسایی صفحات اسپم این است که این صفحات با استفاده از استراتژیهای فریب قادر به کسب رتبه بالا نباشند. تلاش ما ارائه روشی مؤثر در شناسایی صفحات اسپم و در نتیجه کاهش حضور اسپم در نتایج اول جستجوست. در این مقاله دو روش برای مقابله با اسپم وب پیشنهاد شده است. روش اول به نام XGspam صفحات اسپم را بر اساس الگوریتم یادگیری XGBoost با دقت 27/94% شناسایی میکند. در روش دوم به نام XGSspam راهکاری برای چالش نامتوازنبودن دادههای وب با استفاده از ترکیب الگوریتم بیشنمونهبرداری SMOTE با مدل دستهبندی XGBoost ارائه شده که به دقت 44/95% در شناسایی صفحات اسپم میرسد.
کلیدواژه: اسپم وب، الگوریتم دستهبندی XGBoost، متوازنسازی داده، یادگیری ماشین.
1- مقدمه
اولین نسخه وب در سال 1989 توسط برنرز لی به وجود آمد [1]. با گسترش وب، کاربردهای متنوعی در زمینههای مختلف برای وب ایجاد شد و روزبهروز بر تعداد کاربران وب افزوده شد. با گذشت زمان، استفاده بهینه از حجم عظیم اطلاعات وب دشوار شد. امروزه حدود 83/5 بیلیون2 صفحه وب وجود دارد [2]. موتورهای جستجو با جمعآوری و پردازش محتوای ارائهشده در وب، امکان دستیابی راحت و سریع به محتوای مورد نظر را برای کاربران فراهم آوردند. Lycos، نخستین موتور جستجوی تجاری در 1995 وارد دنیای وب شد. از همان زمان مبارزه با صفحات اسپم تبدیل به یکی از مباحث مورد علاقه مجامع دانشگاهی شد [3].
موتور جستجو صفحات وب را بر مبنای کیفیت آنها و میزان ارتباطشان با پرسوجوی کاربر رتبهبندی میکند؛ بهطوری که معمولاً اولین نتایج حاصل از جستجو بهترین و مرتبطترین نتایج هستند. اما متأسفانه وجود عوامل مزاحمی به نام اسپم وب مانع دقت کافی نتایج جستجو و در نتیجه مانع رضایت کامل کاربران از موتور جستجو میشوند. افراد سودجو با هدف بهرهبرداری تجاری از وب، اقدام به ایجاد وبسایتهای اسپم میکنند و در ساخت این صفحات از تکنیکهای متفاوتی استفاده میکنند. حضور اسپم در اولین نتایج جستجو منجر به اتلاف وقت کاربران و نارضایتی آنان خواهد شد. همچنین خزش، نمایهسازی و رتبهبندی صفحات اسپم، منجر به تحمیل هزینه محاسباتی زیادی به شرکتهای موتور جستجو خواهد شد. به همین دلیل مقابله با اسپم وب یکی از چالشهای اصلی موتورهای جستجو است.
اسپمرها از تکنیکهای متنوع مبتنی بر محتوا و پیوند برای افزایش رتبه صفحاتشان استفاده میکنند. در مقابل موتورهای جستجو با شناسایی تکنیکهای اسپمساز، الگوریتمهای رتبهبندی جدید ارائه میدهند. متقابلاً اسپمرها برای فرار از شناسایی و حذف صفحاتشان از تکنیکهای دیگری استفاده خواهند کرد. با توجه به تنوع صفحات اسپم، راهکارهای متفاوتی برای مقابله با آنها ارائه شده است؛ اما به دلیل تنوع روشهای تقلب اسپم و پویایی اسپمرها در فریب الگوریتمهای رتبهبندی موتور جستجو، تاکنون هیچ کدام از روشهای مقابله با اسپم کاملاً موفق نبودهاند.
در این مقاله با بررسی مجموعه داده 2007WEBSPAM-UK [4] و با استفاده از تعدادی از ویژگیهای محاسبهشده در مجموعه داده برای صفحات وب به ارائه روشی برای شناسایی صفحات اسپم پرداختهایم. در مجموعه داده مورد استفاده تعداد صفحات اسپم بسيار كمتر از صفحات خوب است؛ تنها حدود 5% از صفحات مجموعه داده اسپم هستند. ما ابتدا به اجرای تعدادی از پرکاربردترین روشهای ML برای دستهبندی صفحات پرداختیم که بهترین دقت دستهبندی و کمترین زمان محاسباتی متعلق به الگوریتم XGBoost [5] بود. سپس با استفاده از تکنیک SMOTE دادهها متوازنسازی شدند [6] و مجدداً روش XGBoost بر روی دادههای متوازن اجرا شد که منجر به بهبود دقت طبقهبندی تا 44/%95 شد.
در ادامه این مقاله ابتدا در بخش 2 مفاهیم اولیه مرتبط با این موضوع تعریف گردیده و سپس در بخش 3 تعدادی از روشهای پیشین مقابله با اسپم وب مرور شده است. در بخش 4 روش پیشنهادی تشریح شده و نهایتاً در بخش 5 نتایج حاصل بیان شدهاند.
2- تعاریف اولیه
در این بخش، مفاهیم و تعاریف اولیه استفادهشده در این مقاله بهطور خلاصه معرفی میشوند.
1-2 گراف وب
وب به عنوان یک گراف مدلسازی میشود [7] که در آن گرهها
نشاندهنده صفحات وب و یالهای وزندار جهتدار نشاندهنده پیوندهای بین صفحات هستند. اگر صفحه
چندین پیوند به صفحه
داشته باشد، همه در یک پیوند مجتمع میشوند
. حلقه روی یک صفحه مجاز نیست. تعداد صفحاتی که از صفحه
پیوند دریافت میکنند درجه خروجی و تعداد صفحاتی که به
پیوند دارند، درجه ورودی آن صفحه میباشد. هر یال
میتواند یک وزن
داشته باشد. یک استراتژی رایج برای اختصاص وزن به یالها به صورت (1) است که در آن
درجه خروجی صفحه
میباشد
(1)
2-2 اسپم
بخش بزرگی از بازدیدهای یک وبسایت از موتورهای جستجو سرچشمه میگیرد و بیشتر کاربران روی چند نتیجه اول جستجو کلیک میکنند؛ بنابراین برای دستکاری نتایج جستجو با ایجاد صفحات اسپم، انگیزه اقتصادی وجود دارد. صفحاتی که مستقل از شایستگی واقعیشان سعی بر کسب امتیاز بالایی دارند، اسپم هستند. به عبارت دیگر هر تلاشی برای فریب موتور جستجو اسپم است [8].
3-2 انواع اسپم
اسپم وب را میتوان به سه دسته کلی تقسیم کرد. اسپم محتوایی که در آن محتوای صفحه وب برای رسیدن به رتبه بالاتر دستکاری میشود. برای تشخیص این نوع اسپم از روشهای مبتنی بر محتوای صفحه استفاده میشود که تعیین میکند آیا یک صفحه وب بر اساس مشخصات محتوایی صفحه، اسپم است یا نه. اسپم پیوند که در آن پیوندهای بین صفحات و در نتیجه گراف وب دستکاری میشود. برای تشخیص این نوع اسپم از روشهای مبتنی بر پیوند استفاده میشود که اسپم وب را بر اساس ارتباطات بین صفحات وب تشخیص میدهد. اسپم رفتاری که عمدتاً مربوط به کلیکهای برنامهریزیشده برای اهداف سودجویانه است و روشهای تشخیص این نوع اسپم بر اساس دادههای رفتار کاربر، کلیکها و غیره انجام میشود.
3- روشهای مقابله با اسپم وب
تاکنون تلاشهای بسیاری در زمینه شناسایی و مقابله با صفحات اسپم صورت گرفته و در ادامه، نمونههایی از الگوریتمهای متنوع مقابله با اسپم وب آمده است.
دولاس و همکاران در [9] تعدادی ویژگی محتوایی جدید معرفی نمودهاند و پس از آن با بهکارگیری روشهای یادگیری ماشین، این ویژگیها را برای ایجاد یک الگوریتم تشخیص اسپم کارآمد ترکیب کردهاند. این پژوهش بر روی زیرمجموعهای از صفحات خزششده توسط MSN Search انجام شده است. یک نمونه تصادفی شامل 17168 صفحه به طور دستی بررسی و برچسبگذاری شده است. حدود 8/13% صفحات برچسب اسپم و 2/86% صفحات برچسب نرمال خوردند. نهایتاً همه این ویژگیها در یک مدل کلاسبندی در چارچوبهای ، وزندهی3 و ترکیب4 شدند. دقت حاصل در شناسایی درست صفحات اسپم 2/%86 حاصل شد.
بکتی و همکاران در [10] توابع استهلاک عمومی برای تشخیص اسپم وب را بررسی کردند و الگوریتم Truncated PageRank را پیشنهاد دادند. ایده اصلی این الگوریتم آن است که صفحات اسپم در فاصلههای کوتاه تعداد زیادی پیونددهنده دارند؛ در حالی که این تعداد در فاصلههای طولانیتر کمتر از حد مورد انتظار است. در نتیجه از تابع استهلاکی استفاده شد که مشارکت مستقیم از چند سطح اول پیوند ورودی را نادیده بگیرد. مجموعه داده مورد استفاده، مجموعهای از 5/18 میلیون صفحه از دامنه .uk است که در سال 2002 دانلود شد. صفحات در 98452 میزبان مختلف قرار داشتند. با توجه به حجم زیاد این مجموعه، هاستها را به جای صفحات جداگانه دستهبندی کردند. نویسندگان نمونهای از 5750 میزبان (9/5%) را به صورت دستی بررسی کردند و بهطور دستی برچسب زدند که 7/31% از صفحات وب مجموعه را پوشش میداد. دقت تشخیص اسپم وب در این روش 80 درصد میباشد که معادل با دقت بهترین دستهبندیهای اسپم محتوایی است.
بایزا یاتیس و همکاران در [11] با الهام از نمایش PageRank مفهوم رتبه تابعی5 را پیشنهاد دادهاند که یک تعمیم از PageRank با توابع استهلاک6 متنوع میباشد. آنها رتبهبندی را در یک فرمول کلی (2) سنجیدهاند که در آن ماتریس نرمال لینکها و
تعداد نودهاست.
تابع استهلاک برای نود
و
ترانهاده ماتریس همسایگی گراف است
(2)
و این نظریه را اثبات کردند که هر تابع استهلاک (مثلاً تابعی که در آن مجموع استهلاکها 1 میشود) بیانگر یک رتبهبندی کارکردی نرمال خوشساخت است. آنها توابع استهلاک توانی (PageRank)، خطی و غیره را مطالعه کردند و روش مؤثری برای محاسبه رتبه پیشنهاد دادند.
در [12]، یک روش جدید مبتنی بر تمایز صفحات وب (DPR) به منظور بهبود مضرات الگوریتم PageRank کلاسیک در تخصیص وزن پیوندها به طور مساوی و نادیدهگرفتن اعتبار صفحات وب پیشنهاد شده است. همچنین در [13]، یک الگوریتم ضد اعتماد ناهمزمان توسعه داده شده است تا به طور قابل توجهی تعداد عملیات حسابی را در مقایسه با الگوریتم سنتی TrustRank [14] بدون کاهش عملکرد در تشخیص هرزنامه وب کاهش دهد. الگوریتم BadRank نیز ایده محاسبه میزان بدی یک صفحه با استفاده از محاسبه PageRank معکوس را پیشنهاد میدهد [15].
لیو و همکاران روشی را برای انتخاب ویژگیها بر اساس الگوریتم جنگل تصادفی پیشنهاد دادند. این روش بر اساس مجموعه داده 2007WEBSPAM-UK طراحی شده است. در ابتدا با در نظر گرفتن ویژگیهای مرتبط با صفحه اصلی هاست، با پسوند .hp تعداد ویژگیها
به 106 ویژگی کاهش یافته است. سپس از روش حذف معکوس برای انتخاب از میان این 106 ویژگی استفاده شده است. این روش تأثیر بر نتیجه دستهبندی را پس از حذف یک مجموعه از ویژگیها اندازهگیری میکند و نه حذف یک ویژگی به تنهایی. در این پژوهش 7 ویژگی جدید استخراج شده و بر اساس روش انتخاب ویژگی ارائهشده در [8]، تعداد
14 ویژگی از ویژگیهای موجود در مجموعه داده انتخاب شده است.
در مجموع با استفاده از 21 ویژگی به بهبود امتیاز 1F تا 92% دست یافته است [7].
در [16] روشی برای شناسایی صفحات اسپم از دیدگاه کاربر با بررسی صفحاتی که نسخه خزشگر آنها با نسخه نمایشدادهشده به کاربر متفاوت است، مثل اسپم محتوای پنهان و اسپم تغییر مسیر معرفی شده است. در این روش از صفحه وب نمایشدادهشده به کاربر، عکس گرفته شده و سپس از CNN برای تجزیه و تحلیل و طبقهبندی تصاویر استفاده شده است. نویسندگان ابتدا یک مجموعه داده را برای ارزیابی روش پیشنهادی جمعآوری کردند و نشان دادند که این روش با دقت 91% نسبت به روشهای یادگیری ماشین سنتی دقت بهتری دارد. سپس به مدت 3 ماه الگوریتم پیشنهادی را بر روی صفحات وب واقعی اجرا کردند. سرورهای نصبشده در 5 ماشین از 20 میلیون صفحه وب اسکرینشات تهیه کردند و سپس به بررسی این صفحات پرداختند. این روش شناسایی صفحات اسپم، تمام تکنیکهای اسپمرها در لایههای میانی را خنثی میکند. هرچند آموزش این روش زمانبر است، اما آزمایش آن کارامد است و به نتایج بسیار مطلوبی دست یافته است.
ژوانگ و همکاران در [17] یک روش جدید یادگیری مبتنی بر اولویت7 را با هدف کاهش رتبه8 صفحات اسپم در رتبهبندی مبتنی بر انتشار امتیاز پیشنهاد دادهاند. این مقاله یکی از اولین مطالعاتی است که از روش یادگیری برای رتبهبندی9 برای مقابله با مشکل اسپم وب استفاده کرده است. نویسندگان به بررسی روشهای رتبهبندی صفحات وب از طریق انتشار امتیاز در گراف وب پرداختهاند. بدیهی است الگوریتمهایی که بتوانند با کاهش رتبه صفحات اسپم از حضور آنها در نتایج اول جستجو جلوگیری کنند، موفقتر خواهند بود. ایشان برای ارزیابی میزان موفقیت الگوریتمهای رتبهبندی، یک متریک جدید به نام امتیاز کاهش رتبه10
ارائه دادند و به بررسی و مقایسه روش پیشنهادی با سایر الگوریتمهای رتبهبندی بر اساس متریک پیشنهادی پرداختند. در مقایسه با الگوریتمهای کاهش رتبه صفحات اسپم11، مبتنی بر انتشار امتیاز 7/0% بهبود نسبی در مجموعه داده 2006WEBSPAM-UK و 3/7% بهبود نسبی در مجموعه داده 2007WEBSPAM-UK از نظر امتیاز کاهش رتبه صفحات اسپم به دست آمده است.
رفتار کاربران یکی از پارامترهای مهم مورد توجه اسپمرها برای طراحی تکنیکهای اسپمساز است. یک ارتباط جالب بین کلمات کلیدی موجود در پرسوجوی کاربر و URLهای سایتهای اسپم وجود دارد. در [18] این نکته مورد توجه قرار گرفت و در نتیجه یک چارچوب تشخیص اسپم با هدف تحلیل داده مربوط به کلیک در سطح سایت و صفحه، پیشنهاد شد و الگوریتم انتشار برچسب نامیده شد که در عمل با توجه به پیمایش سراسری گراف وب خزششده، نسبت به الگوریتمهای PageRank و TrustRank نتایج بهتری داشته است.
اسپمرها حتی به سایتهای شبکه اجتماعی هم صدمه زدهاند و تکنیکهای تشخیص اسپم مجزا برای شبکههای اجتماعی پیشنهاد شدهاند. ایده مرور محصولات توسط کاربران، منجر به اسپم مرور شد که برای شناسایی آن تکنیکهایی ارائه شده است [19]. مطالعات بسیاری برای شناسایی اسپم ایمیل، اسپم مرور و ... انجام شده که در چارچوب این مقاله نمیگنجد.
4- دستهبندی صفحات وب
هدف این مقاله، یافتن راهحلی برای مسئله اسپم وب است. صفحات اسپم ویژگیهایی دارند که آنها را از سایر صفحات وب متمایز میکند؛ مثلاً میتوان به تکرار کلمات و کاراکترهای خاص در متن صفحه یا در URL صفحات اسپم و یا وجود لینکهای گروهی به سایر صفحات اسپم اشاره کرد. در این پژوهش تلاش میشود که با تشخیص صفحات اسپم و حذف یا جریمه آنها، حضور این نوع صفحات در نتایج اول جستجوی وب به حداقل برسد. اطلاعاتی که میتوان از هر صفحه وب کسب کرد، شامل اجزای درون صفحه وب مثل متن و تگهای HTML است که ویژگیهای مبتنی بر محتوا نامیده میشوند و نیز ویژگیهای مرتبط با ارتباطات یک صفحه با سایر صفحات وب که ویژگیهای مبتنی بر پیوند نامیده میشوند. بر اساس این دو گروه اصلی ویژگیهای صفحه و ساختار گراف وب میتوان پردازشهایی انجام داد و ویژگیهای پیچیدهتری
را برای صفحه محاسبه کرد؛ برای نمونه امتیازات PageRank [20]، TrustRank [14] و TruncatedPageRank [10] که در ابتدا به عنوان الگوریتمهای رتبهبندی وب معرفی شدند، در حال حاضر امتیازات حاصل از آنها به عنوان یک ویژگی صفحه وب مورد استفاده قرار میگیرد.
الگوریتم رتبهبندی PageRank بر اساس انتشار امتیاز در گراف وب به هر گره (صفحه وب) بر اساس میزان محبوبیت و اعتبار همسایگان آن امتیازی را اختصاص میدهد. هرچقدر همسایگان یک صفحه معتبرتر باشند، آن صفحه امتیاز PageRank بیشتری را کسب خواهد کرد و در رتبهبندی جایگاه بهتری را خواهد داشت.
الگوریتم TrustRank برای شناسایی صفحات باکیفیت و قراردادن آنها در رتبههای بالا، با فرض «یک صفحه خوب با صفحات خوب پیوند دارد»، از یک مجموعه اولیه از صفحات خوب استفاده میکند و سپس با دنبالکردن لینکهای خروجی این صفحات به انتشار امتیاز میپردازد.
الگوریتم رتبهبندی TruncatedPageRank بر مبنای الگوریتم PageRank و با هدف شناسایی و حذف اسپم مزرعه پیوند، ایجاد شده است. مزرعه پیوند نوعی اسپم مبتنی بر پیوند است که در آن صفحات اسپم به تعداد زیاد بین خودشان لینک ایجاد میکنند و سعی بر بالابردن امتیاز صفحهای خاص دارند. الگوریتم TruncatedPageRank با حذف پیوند همسایگان بسیار نزدیک یک صفحه (همسایگان با طول مسیر کمتر از ) تا حد زیادی موفق به مقابله با این نوع اسپم شد. به این ترتیب میتوان ادعا کرد در زمان استفاده از ویژگیهای مبتنی بر پیوند، ساختار گراف وب و انتشار امتیاز نیز به طور ضمنی در محاسبات دیده میشود.
تاکنون پژوهشهای بسیاری در زمینه شناسایی صفحات اسپم انجام شده است. روشهای متنوع با تحلیل ویژگیهای مبتنی بر محتوا و پیوند صفحات وب به دستهبندی این صفحات و یا انتشار امتیاز در گراف وب و جریمه صفحات اسپم پرداختهاند؛ لیکن به دلیل وجود چالشهای ماهیتی وب، نظیر پراکندهبودن دادههای گراف وب و نامتوازنبودن تعداد صفحات اسپم و نرمال و نظایر آن به دقت مطلوب نرسیدهاند. این مشکل همچنان مطرح است و هنوز راهحل قطعی و کاملی برای آن پیشنهاد نشده است. دستهبندی صفحات وب یک راهحل مناسب برای رهایی از خسارات ناشی از اسپم وب است. در پژوهشهای پیشین نیز الگوریتمهای دستهبندی بسیاری برای این منظور به کار گرفته شدهاند.
در این مقاله تلاش شده تا با یافتن راهکاری برای عبور از موانع موجود، دستهبندی دقیقتری با استفاده از تعداد کمتری از ویژگیها با سرعت بالاتر و هزینه محاسباتی کمتر انجام شود. در ادامه صفحات وب به دو روش دستهبندی شدهاند:
شکل 1: توزیع آماری صفحات مجموعه آموزش.
شکل 2: توزیع آماری صفحات مجموعه آزمایش.
[1] این مقاله در تاریخ 29 خرداد ماه 1403 دریافت و در تاریخ 10 شهریور ماه 1403 بازنگری شد.
ریحانه رشیدپور (نویسنده مسئول)، دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران، (email: rashidpour@stu.yazd.ac.ir).
علیمحمد زارع بیدکی، دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران، (email: alizareh@yazd.ac.ir).
[2] . 1 Billion = 1012
[3] . Boosting
[4] . Bagging
[5] . Functional Rank
[6] . Damping
[7] . Preference Based
[8] . Demotion
[9] . Learning to Rank (LTR)
[10] . Demotion Score
[11] . Web Spam Demotion Algorithms
- روش اول که XGspam نامیده میشود، شامل استفاده از یک الگوریتم دستهبندی سریع و کارا با هدف شناسایی صفحات اسپم است. در این مرحله، مدل دستهبندی روی مجموعه دادهای از صفحات وب شامل ویژگیهای محاسبهشده و برچسبهای کلاس، آموزش میبیند و سپس روی یک مجموعه بزرگتر، آزمایش و دقت دستهبندی محاسبه میشود.
- در روش دوم با نام XGSspam برای حل مشکل عدم توازن دادهها راهکاری پیشنهاد گردیده و مجدداً مجموعه داده متوازن
به دو کلاس اسپم و نرمال دستهبندی شده است. ترکیب مدل دستهبندی درختی با تکنیک متوازنسازی دادهها منجر به دقت مطلوبی شده است.
1-4 دستهبندی XGspam
با توجه به خسارات ناشی از وجود اسپم به شرکتهای موتور جستجو و به کاربران وب، هدف ما شناسایی صفحات اسپم است. اندازه بسیار بزرگ و روبهرشد وب، مستلزم استفاده از یک روش مقیاسپذیر، سریع و با هزینه محاسباتی کم است.
با توجه به ویژگیهای ممتاز روش XGBoost و درخشش آن در رقابتهای جهانی، به نظر میرسد که این روش در حیطه تشخیص صفحات اسپم نیز کارامد باشد. در این مقاله الگوریتم XGBoost برای نخستین بار با هدف دستهبندی صفحات وب به کار رفته است.
1-1-4 معرفی الگوریتم XGBoost
1XGBoost یک الگوریتم یادگیری ماشین است که از مدلهای درختی گروهی استفاده میکند و با الهام از الگوریتمهای تقویت درختی (متشکل از درختان تصمیم) از ترکیب چندین درخت رگرسیون2 به عنوان مدل اصلی خود استفاده میکند. در این روش هر برگ درخت (در مثال ما هر صفحه وب) شامل یک امتیاز پیوسته است. برای دستهبندی این برگها از قوانین تصمیم در درختها استفاده میشود. کلاس نهایی هر برگ با تجمیع امتیازات برگهای متناظر پیشبینی میگردد و تلاش میشود تا بهترین پیشبینی را برای مسائل یادگیری ماشین ارائه کند.
مدل یادگیری ماشین XGBoost یکی از مدلهای پرطرفدار در رقابتهای Kaggle و KDD-cup است که تاکنون جوایز بسیاری را به خود اختصاص داده است [21] و [22]. مهمترین فاکتور در موفقیت XGBoost مقیاسپذیری آن در تمام سناریوهاست. محاسبات موازی و توزیعشده منجر به یادگیری 10 برابر سریعتر مدل نسبت به راهحلهای رایج موجود روی یک ماشین میشود [5].
الگوریتم XGBoost به دلیل ترکیب روشهای خلاقانه و
بهینهسازیهای موثر بسیار مقیاسپذیر است که تعدادی از آنها عبارتند از:
• یادگیری درختی موازی برای دادههای پراکنده با پیچیدگی خطی از مرتبه زمانی تعداد دادههای موجود
• طرح چندک وزندار در یادگیری درختی تقریبی
• محاسبات خارج از حافظه اصلی3 برای پردازش صدها میلیون داده روی یک کامپیوتر
• ساختار بلاکی آگاه از حافظه پنهان برای یادگیری درختی خارج از حافظه اصلی همراه با تکنیکهای فشردهسازی داده، موازیسازی و خردکردن بلاکهای داده
• نهایتاً همه این ویژگیها در یک سیستم کامل ابتدا تا انتها4 مجتمع میشوند و یک راهحل نوین برای مسائل دنیای واقعی ارائه میدهد.
با توجه به ویژگیهای برجسته مدل XGBoost، در این پژوهش برای نخستین بار در حل مسئله اسپم ، این مدل مورد استفاده قرار گرفته است.
این الگوریتم یک روش یادگیری ماشین است که بر اساس یک مجموعه آموزشی شامل بردار ویژگیهای صفحات اسپم و برچسب کلاس هر صفحه، آموزش میبیند و سپس با اجرا روی مجموعه آزمایشی و مقایسه نتایج حاصل از الگوریتم دستهبندی با برچسبهای کلاس آن مجموعه، ارزیابی شده و دقت آن محاسبه میشود.
در این مقاله از مجموعه داده 2007WEBSPAM-UK برای آموزش و آزمایش مدل دستهبندی پیشنهادی استفاده شده است. این مجموعه داده در حال حاضر محبوبترین و کاملترین مجموعه داده در حوزه شناسایی صفحات اسپم است.
2-1-4 معرفی مجموعه داده 2007WEBSPAM-UK
مجموعه داده 2007WEBSPAM-UK در سال 2007 توسط کاستیلو [4] با هدف استفاده در مطالعات تشخیص اسپم وب جمعآوری شده است. بخشی از این مجموعه توسط داوطلبان به طور دستی در سه کلاس نرمال، اسپم و دستهبندینشده، برچسبگذاری شده و برچسبها در دو مجموعه منتشر شدهاند. این مجموعه داده شامل 114529 هاست است که 6479 هاست برچسبگذاری شدهاند. مجموعه اول شامل دوسوم هاست وب ارزیابیشده برای آموزش و مجموعه دوم شامل یکسوم باقیمانده برای آزمایش مدل ارائه شده است.
شمای کلی دادههای دو مجموعه آموزش و آزمایش مرورشده توسط ارزیابان در شکلهای 1 و 2 رسم شده است.
کاستیلو و همکاران به جمعآوری مشخصات صفحات وب پراختند و برای هر صفحه وب در این مجموعه داده 275 ویژگی مختلف در 4 گروه ویژگیهای بدیهی هر صفحه، ویژگیهای محتوایی، ویژگیهای پیوند و یک گروه ویژگیهای حاصل از انجام محاسبات بر روی ویژگیهای پیوند برای صفحات وب محاسبه کردند. این صفحات شامل صفحه اصلی هر
جدول 1: لیست ویژگیهای مورد استفاده در طبقهبندی پیشنهادی.
نام ویژگی | شرح ویژگی |
HST_19 | میزان بازیابی برای 100 پرسوجوی برتر |
HST_20 | میزان بازیابی برای 200 پرسوجوی برتر |
Outdegree_hp | درجه خروجی هاست |
Pagerank_hp | امتیاز PageRank هاست |
Truncatedagerank_1_hp | امتیاز TruncatedPageRank در فاصله همسایگی 1 |
Truncatedagerank_2_hp | امتیاز TruncatedPageRank در فاصله همسایگی 2 |
Truncatedagerank_3_hp | امتیاز TruncatedPageRank در فاصله همسایگی 3 |
Truncatedagerank_4_hp | امتیاز TruncatedPageRank در فاصله همسایگی 4 |
L_outdegree_hp | لگاریتم درجه خروجی هاست |
L_Pagerank_hp | لگاریتم امتیاز PageRank هاست |
L_Truncatedagerank_1_hp | لگاریتم امتیاز TruncatedPageRank در فاصله همسایگی 1 |
L_Truncatedagerank_2_hp | لگاریتم امتیاز TruncatedPageRank در فاصله همسایگی 2 |
L_Truncatedagerank_3_hp | لگاریتم امتیاز TruncatedPageRank در فاصله همسایگی 3 |
L_Truncatedagerank_4_hp | لگاریتم امتیاز TruncatedPageRank در فاصله همسایگی 4 |
هاست و صفحه با بالاترین امتیاز PageRank در آن هاست میباشد. مجموعه داده ورودی ما شامل 14 ویژگی انتخابشده از مجموعه ویژگی 2007WEBSPAM-UK برای صفحه اصلی هر هاست میباشد. لیست ویژگیهای استفادهشده در این مقاله در جدول 1 آمده است. ما در این پژوهش از مجموعه ویژگی پیشنهادشده توسط اصدقی و سلیمانی حاصل از روش انتخاب ویژگی smart_BT معرفیشده در [8] برای انتخاب ویژگیها استفاده میکنیم. در این روش 14 ویژگی هر صفحه انتخاب شده است؛ در صورتی که در اکثر تحقیقات مشابه از تعداد بسیار بیشتری ویژگی برای شناسایی صفحات اسپم استفاده شده است. در [7] نیز از این مجموعه ویژگی استفاده شده است.
در این مرحله ابتدا تمام دادهها با برچسب «دستهبندینشده» از مجموعه داده حذف شدند؛ سپس عملیات پیشپردازش شامل نرمالسازی دادهها برای دادههای باقیمانده انجام شد. پس از آموزش مدل روی مجموعه آموزشی و آزمایش آن بر روی مجموعه داده تست، صفحات اسپم با دقت 27/94% شناسایی شدند که در مقایسه با بهترین روشهای موجود، بالاترین دقت است.
چالش مهم دیگری که در مسئله وب وجود دارد، این است که طبیعتاً تعداد صفحات خوب نسبت به صفحات اسپم بسیار بیشتر است؛ هرچند تمرکز سازندگان اسپم وب حضور در اولین نتایج جستجو است و کیفیت جستجو را به شدت تحت تأثیر قرار میدهند. در همه مجموعه دادههای موجود در این حوزه نیز نسبت اسپم به نرمال بسیار کم است؛ اما نسبت آماری این صفحات کمتر از صفحات نرمال میباشد. در مجموعه داده 2007WEBSPAM-UK همان طور که در شکلهای 1 و 2 مشخص است، این نسبت حدود 5% است.
عدم توازن کلاسها منجر به تبعیض در دستهبندی به نفع کلاس اکثریت میشود؛ در نتیجه سیستم دستهبندی صفحات اسپم را با دقت کمتری یاد میگیرد. پس «نرخ اسپمهایی که امتیاز نرمال میگیرند»
بیشتر از «نرخ نرمالهایی که امتیاز اسپم میگیرند» خواهد شد . همچنین معیارهای ارزیابی سنتی مانند دقت میتوانند در دادههای نامتوازن به ارزیابیهای گمراهکننده منجر شوند؛ یعنی یک مدل میتواند با پیشبینی کلاس اکثریت، دقت بالا داشته باشد؛ همان طور که دقت پایه در این مسئله، درصد قابل توجهی است. در صورتی که در بسیاری از کاربردهای واقعی، چنین پیشبینیهایی ارزش زیادی ندارند. مدلهای آموزشدیده بر روی دادههای نامتوازن ممکن است دچار مشکل در تشخیص وقوع رویدادهای کمیاب یا نادر شوند و در کاربردهایی مانند تشخیص صفحات اسپم به خسارتهای مالی قابل توجهی برای شرکت موتور جستجو و نارضایتی کاربران منجر شود. با ایجاد توازن در کلاسها، این تبعیض برطرف خواهد شد.
2-4 دستهبندی XGSspam
در دومین راهکار ارائهشده در این پژوهش، ابتدا دادههای مجموعه داده 2007WEBSPAM-UK متوازنسازی شدند و سپس داده متوازن با الگوریتم XGBoost دستهبندی شد.
قابلیت هر تکنیک متوازنسازی نه فقط به اصل عملیاتی آن، یعنی نحوه متعادلکردن کلاسهای متغیر هدف، بلکه به نسبت عدم تعادل
بین کلاسهای متغیر هدف نیز بستگی دارد. در آن مواردی که عدم تعادل کلاسهای یک مجموعه داده بسیار شدید میباشد، تکنیکهای متوازنسازی بیشنمونهبرداری دارای نتایج بهتری بودهاند [23]. با توجه به شدیدبودن نسبت عدم تعادل کلاسهای اسپم و نرمال در مجموعه داده 2007WEBSPAM-UK مطابق با شکلهای 1 و 2، تکنیک بیشنمونهبرداری SMOTE پیشنهاد میشود. ضمن اینکه در مسایل طبقهبندی دادههای نامتعادل، SMOTE میتواند مشکل اضافه برازش را کاهش دهد و عملکرد طبقهبندیکننده را بهبود بخشد [24]. این روش با ترکیب دو تکنیک کارا، موفق به دستهبندی صفحات اسپم با دقت بسیار خوب 44/95% شد.
الگوریتم SMOTE یک تکنیک ایجاد بیشنمونه است که در آن کلاس اقلیت با ایجاد نمونههای ساختگی، بیشنمونهبرداری میشود. این رویکرد از تکنیکی موفق در تشخیص کاراکترهای دستنویس الهام گرفته شده که در آن دادههای اضافی را با ایجاد تغییراتی روی دادههای واقعی ایجاد کردند؛ مثل چرخش یا کشش حروف.
SMOTE دادههای ساختگی را با کار در فضای ویژگیها به جای فضای داده، ایجاد میکند. با توجه به تعداد نمونه ساختگی مورد نیاز، به طور تصادفی تا از نزدیکترین همسایهها انتخاب میشوند؛ سپس ویژگیهای نمونه جدید کلاس اقلیت بر اساس ویژگیهای همسایگان مربوطه محاسبه میشود. مثلاً اگر میزان داده اضافی مورد نیاز 200% باشد، از بین نزدیکترین همسایگان 2 همسایه انتخاب شده و در راستای هر کدام یک نمونه جدید ایجاد میشود.
در SMOTE، نمونههای جدید با درونیابی خطی بین نمونه که به طور دلخواه از کلاس اقلیت انتخاب شده و هر
از
نزدیکترین همسایههای آن نمونه تولید میشود. روش سنتز نمونههای کلاس اقلیت در (3) آمده است
(3)
که در آن نشاندهنده یک عدد تصادفی انتخابشده در بازه
است.
شکل 3: توزیع صفحات اسپم و نرمال در مجموعه آموزش قبل از متوازنسازی.
جدول 2: نتایج اجرای روشهای پیشنهادی.
| XGspam | XGspam | XGSspam |
تعداد ویژگی | 277 | 14 | 14 |
دقت | 9525/0 | 9427/0 | 9544/0 |
صحت کلاس 0 | 96/0 | 95/0 | 95/0 |
بازخوانی کلاس 0 | 99/0 | 99/0 | 96/0 |
صحت کلاس 1 | 71/0 | 39/0 | 95/0 |
بازخوانی کلاس 1 | 26/0 | 12/0 | 95/0 |
auc | 6275/0 | 5543/0 | 9544/0 |
زمان آموزش مدل | 95/4 ثانیه | 40/0 ثانیه | 74/0 ثانیه |
SMOTE نمونههای کلاس اقلیت مرتبط بیشتری را برای یادگیری فراهم میکند؛ بنابراین به یادگیرنده اجازه میدهد تا مناطق تصمیمگیری گستردهتری را ایجاد کند که منجر به پوشش بیشتر طبقه اقلیت و
در نتیجه آموزش بهتر مدلهای یادگیری ماشین میشود [6]. هنگام طبقهبندی دادههای نامتعادل، SMOTE میتواند مشکل اضافه برازش را کاهش دهد و عملکرد طبقهبندیکننده را بهبود بخشد.
پس از متوازنسازی مجموعه داده با روش SMOTE نسبت صفحات دو کلاس اسپم و نرمال در مجموعه داده برابر شد. همان طور که در شکلهای 1 و 2 مشهود است، اکثریت صفحات وب در مجموعه داده 2007WEBSPAM-UK صفحات نرمال هستند و صفحات اسپم در هر دو مجموعه آموزش و آزمایش حدود 5 درصد از کل صفحات آن مجموعه است. با توجه به درصد بسیار پایین اسپم در مجموعه داده، پس از حذف صفحات «دستهبندینشده» از مجموعه آموزش و آزمایش، ابتدا دادههای دو مجموعه ترکیب شدند و عملیات پیشپردازش بر روی کل دادهها انجام شد و سپس دادهها با استفاده از تکنیک SMOTE متوازن شدند؛ یعنی برای کلاس اقلیت، نمونههای جدیدی در همسایگی نمونههای موجود در این کلاس تولید شد. پس از متوازنسازی، مجموعه شامل 7552 هاست است. پس از اتمام مرحله پیشپردازش5، دادهها به صورت تصادفی جابجا میشوند و مجدداً به دو مجموعه آموزش و آزمایش تقسیم6 شدند. مجموعه آزمایش شامل 20% از این مجموعه داده و مجموعه آموزش شامل 80% مجموعه داده میباشد. نمای توزیع دادهها
شکل 4: توزیع صفحات اسپم و نرمال در مجموعه آموزش بعد از متوازنسازی.
مجموعه آموزش، قبل و بعد از متوازنسازی در شکلهای 3 و 4 نشان داده شده است.
پس از اینکه توزیع صفحات اسپم و نرمال به حالت مطلوب رسید، مجدداً مجموعه داده متوازن با استفاده از مدل XGBoost دستهبندی شد. به طور قابل توجهی دقت دستهبندی افزایش یافت و به 44/95% رسید که دقت بسیار مطلوبی در شناسایی صفحات اسپم وب است.
5- نتایج تجربی
در این بخش نتایج حاصل از دو روش پیشنهادی XGspam و XGSspam بررسی میشود. ابتدا به محاسبه دقت پایه در مسئله شناسایی اسپم وب بر روی مجموعه داده 2007WEBSPAM-UK میپردازیم. سپس نتایج متریکهای متفاوت حاصل از اجرای روشهای پیشنهادی را بررسی میکنیم و در پایان نتایج حاصل با روشهای مشابه مقایسه شده است.
1-5 محاسبه دقت پایه
دقت پایه در حالتی که هیچ تلاشی برای طبقهبندی صفحات انجام نشود و همه صفحات مجموعه، نرمال فرض شوند، با محاسبه درصد نرخ صفحات نرمال به کل صفحات محاسبه شده است. دقت پایه برای تشخیص صحیح صفحات نرمال در مجموعه آموزش برابر با 32/88% و در مجموعه آزمایش برابر با 70/87% است. نکته قابل توجه این است که دقت بسیاری از الگوریتمهای پیشین از دقت پایه کمتر میباشد.
2-5 نتایج حاصل از دو روش پیشنهادی
در این مقاله دو روش دستهبندی برای صفحات وب ارائه شده و گزارشی از نتایج اجرای این روشها در جدول 2 آمده است. در ستون اول نتایج حاصل از اجرای روش XGspam بر روی کل ویژگیهای مجموعه داده و در ستون دوم نتایج اجرای روش XGspam بر روی مجموعهای از ویژگیهای انتخابی شامل 14 ویژگی و نتایج حاصل از اجرای روش XGSspam بر روی همان مجموعه در ستون سوم آمده است. با مقایسه نتایج روش XGspam بر روی کل مجموعه داده و اجرای آن بر روی مجموعه داده کوچکتر میبینیم متریکهای صحت و بازخوانی کلاس نرمال (0) و دقت در دو روش تقریباً برابر هستند. اما صحت و بازخوانی کلاس اسپم (1) در مجموعه داده بزرگتر بسیار بهتر است که با توجه
به حذف تعداد بسیار زیاد ویژگیها به طوری که تعداد ویژگیهای مورد استفاده در XGspam بر روی مجموعه داده اصلی، 20 برابر بیشتر است،
جدول 3: مقایسه نتایج روش پیشنهادی با پژوهشهای پیشین.
دقت | الگوریتم | ویژگی | مجموعه داده | نام روش |
%80 | Truncated PageRank | پیوند | 2002 Uk | بچتی [10] |
2/%86 |
| محتوایی | خزششده | تولاس [9] |
%91 | CNN | محتوا | ساختهشده | لیو [16] |
%93 | Random Forest | پیوند و محتوا | 2007 Uk | لئو [7] |
%94 | XGBoost | پیوند و محتوا | 2007 Uk | XGspam |
%95 | XGBoost | پیوند و محتوا | 2007 Uk | XGSspam |
این نتیجه قابل انتظار و بلکه بهتر از حد انتظار است. اما به دلیل ابعاد بزرگتر داده، زمان آموزش این مدل بیش از 8 برابر طولانیتر است. با توجه به ابعاد وب، شناسایی صفحات اسپم در کارایی مدل بسیار مؤثر است.
نتایج حاصل از روش XGSspam نشان میدهند که هرچند دقت این روش تقریباً معادل روش XGspam است، اما صحت و بازخوانی کلاس اسپم و همچنین معیار auc بهبود قابل توجهی داشته است؛ به طوری که تنها در معیار بازخوانی 83% افزایش داشتهایم، هرچند زمان آموزش مدل حدوداً 2 برابر طولانیتر شده است.
3-5 مقایسه نتایج با تحقیقات مشابه
در جدول 3 تعدادی از مطالعات مرتبط و نتایج آنها آورده شده است. از بین روشهای بررسیگردیده، تنها روش لئو [7] بر روی مجموعه داده 2007WEBSPAM-UK اجرا شده و نتایج آن قابل مقایسه با روشهای پیشنهادی در این مقاله است. روش بچتی [10] بر روی مجموعه داده 2002 uk اجرا شده و فقط از ویژگیهای پیوند استفاده کرده است. بقیه مدلها روی مجموعه دادههای خزششده و ساختهشده توسط نویسندگان اجرا شدهاند. به دلیل تنوع متریکهای ارائهشده در مقالات مختلف، در اینجا تنها موفق به مقایسه دقت روشها با یکدیگر شدیم.
همان طور که در جدول مشهود است، استفاده از الگوریتمهای یادگیری ماشین و آموزش آنها بر اساس ترکیبی از ویژگیهای پیوند و محتوا نتایج بهتری را به دست میدهد. در این مقاله علاوه بر انتخاب الگوریتم سریع و دقیق دستهبندی XGBoost و بهرهبردن از طیفی از ویژگیهای پیوند و محتوا، با ارائه راهکاری برای چالش نامتوازنبودن تعداد صفحات اسپم و نرمال در مجموعه داده، موفق به بهبود چشمگیر صحت، بازخوانی، دقت، auc و سرعت شناسایی صفحات اسپم شدهایم.
6- نتیجهگیری و کارهای آینده
کاربران موتورهای جستجو، معمولاً به نتایج اول جستجو توجه میکنند. حضور صفحات اسپم در بالای لیست نتایج جستجو، منجر به اتلاف زمان کاربران و در نتیجه نارضایتی کاربران و کاهش اعتبار موتور جستجو خواهد شد. به همین دلیل موتورهای جستجو معمولاً هزینه بسیاری را صرف شناسایی و حذف یا کاهش رتبه صفحات اسپم میکنند. با این وجود با توسعه الگوریتمهای رتبهبندی جدید، اسپمرها نیز از تکنیکهای متناسب جهت کسب رتبه بالاتر استفاده میکنند. این چرخه همچنان ادامه دارد و مسئله اسپم وب هرگز به طور کامل حل نشده است.
در این مقاله از بخشی از مجموعه داده 2007WEBSPAM-UK شامل 14 ویژگی مبتنی بر محتوا و لینک استفاده شده و به دو روش دستهبندی انجام شده است. در روش اول به نام XGspam یک مدل دستهبندی با استفاده از تکنیک XGBoost ایجاد گردید که موفق به دستهبندی صفحات وب در دو کلاس نرمال و اسپم با دقت 94% شد. در روش دوم دو تکنیک متوازنسازی و دستهبندی درختی با هم ترکیب شدند. پس از آموزش و آزمایش این مدل به دقت و بازخوانی 95% رسید که دقتی بالاتر از روشهای موجود است. در این پژوهش تنها 14 ویژگی هر صفحه بر اساس پژوهشهای موفق پیشین انتخاب و استفاده شده است؛ در نتیجه با محاسبات کمتر و با سرعت بیشتر به دقت خوبی دست یافته و با یک الگوریتم یادگیری ماشین در دسترس، ساده، سریع و عملی موفق به کسب دقت دستهبندی قابل توجهی در مقایسه با کارهای پیشین شده است.
استفاده از تکنیکهای انتخاب ویژگی و سپس دستهبندی دادهها با مدل ترکیبی XGSspam، امیدبخش حصول به دقت بالاتر در کارهای آینده است. همچنین بهرهبرداری همزمان از ویژگیهای محتوا و پیوند و ساختار گراف وب میتواند منجر به نتایج دقیقتری در آینده شود. با توجه به ابعاد وب و رشد روزافزون آن، امکان تولید محدود دادههای برچسبدار، بهرهبردن از دادههای بدون برچسب نیز میتواند در حل مسئله اسپم وب بسیار راهگشا باشد.
مراجع
[1] E. Convey, "Porn sneaks way back on web," The Boston Herald, vol. 28, 1996.
[2] M. De Kunder, "he Size of the World Wide Web (The Internet), https://www.worldwidewebsize.com, Retrived 2024.
[3] A. Shahzad, N. M. Nawi, M. Z. Rehman, and A. Khan, "An improved framework for content‐and link‐based web‐spam detection: a combined approach," Complexity, vol. 2021, Article ID: 6625739, 18 pp., 2021.
[4] C. Castillo, Web Spam Collections, https://chato.cl/webspam/datasets/uk2007, Retrived 2024.
[5] T. Chen and C. Guestrin, "Xgboost: a scalable tree boosting system," in Proc. ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pp. 785-794, San Francisco, CA, USA, 13-17 Aug. 2016.
[6] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique," Artificial Intelligence Research, vol. 16, no. 1, pp. 321-357, Jan. 2002.
[7] J. Liu, Y. Su, S. Lv, and C. Huang, "Detecting web spam based
on novel features from web page source code," Security and Communication Networks, vol. 2020, Article ID: 6662166, 14 pp., 2020.
[8] F. Asdaghi and A. Soleimani, "An effective feature selection method for web spam detection," Knowledge-Based Systems, vol. 166, pp. 198-206, Feb. 2019.
[9] A. Ntoulas, M. Najork, M. Manasse, and D. Fetterly, "Detecting spam web pages through content analysis," in Proc. World Wide Web, pp. 83-92, Edinburgh, Scotland, 23-26 May 2006.
[10] L. Becchetti, C. Castillo, D. Donato, S. Leonardi, and R. Baeza-Yates, "Using rank propagation and probabilistic counting for link-based spam detection," in Proc. the WebKDD, 10 pp., 2006.
[11] R. Baeza-Yates, P. Boldi, and C. Castillo, "Generalizing PageRank: damping functions for link-based ranking algorithms," in Proc. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 308-315, Seattle, WA, USA, 6-11 Aug. 2006.
[12] M. Yu, J. Zhang, J. Wang, J. Gao, T. Xu, and R. Yu, "The research of spam web page detection method based on web page differentiation and concrete clusters centers," in Proc. Int. Conf. on Wireless Algorithms, Systems, and Applications, pp. 820-826, Tianjin, China, 20-22 Jun. 2018.
[13] J. J. Whang, Y. S. Jeong, I. Dhillon, S. Kang, and J. Lee, "Fast asynchronous antitrust rank for web spam detection," in Proc. WSDM Workshop on Misinformation and Misbehavior Mining on the Web, 4 pp., Marina Del Rey, CA, USA, 5-9 Feb. 2018.
[14] Z. Gyöngyi, H. Garcia-Molina, and J. Pedersen, "Combating web spam with trustrank," in Proc.Very Large Data Bases, vol. 30, pp. 576-587, Toronto, Canada, 31 Aug.-3 Sept. 2004.
[15] M. Sobek, Pr0-Google’s Pagerank 0 Penalty, http://pr.efactory.de/e-pr0.shtml, Retrived 2024.
[16] D. Liu and J. Lee, "CNN based malicious website detection by invalidating multiple web spams," IEEE Access, vol. 8, pp. 97258-97266, 2020.
[17] X. Zhuang, Y. Zhu, Q. Peng, and F. Khurshid, "Using deep belief network to demote web spam," Future Generation Computer Systems, vol. 118, pp. 94-106, May 2021.
[18] C. Wei, Y. Liu, M. Zhang, S. Ma, L. Ru, and K. Zhang, "Fighting against web spam: a novel propagation method based on click-through data," in Proc. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 395-404, Portland, ON, USA, 12-16 Aug. 2012.
[19] A. Heydari, M. A. Tavakoli, N. Salim, and Z. Heydari, "Detection of review spam: a survey," Expert Systems with Applications, vol. 42, no. 7, pp. 3634-3642, May 2015.
[20] S. Brin and L. Page, "The anatomy of a large-scale hypertextual web search engine," Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117, Apr. 1998.
[21] D. Sculley, Kaggle: Your Machine Learning and Data Science Community, https://www.kaggle.com, Retrived 2024.
[22] X. Ren, Knowledge Dscovery in Data and Data-Mining, https://kdd.org/, Retrieved 2024.
[23] T. Wongvorachan, S. He, and O. Bulut, "A comparison of undersampling, oversampling, and SMOTE methods for dealing with imbalanced classification in educational data mining," Information, vol. 14, no. 1, Article ID: 54, 2023.
[24] Y. Zhang, L. Deng, and B. Wei, "Imbalanced data classification based on improved random-SMOTE and feature standard deviation," Mathematics, vol. 12, no. 11, Article ID: 1709, 2024.
ریحانه رشیدپور تحصيلات خود را در مقطع كارشناسي مهندسی کامپیوتر گرایش نرمافزار در سال 1388 از دانشگاه آزاد اسلامی شیراز و كارشناسي ارشد در سال 1390 از دانشگاه شهيد بهشتي به پایان رسانده است و در سال 1403 از رساله دکتری خود در دانشگاه یزد دفاع کرده است و اكنون به خدمت معلمی در آموزش و پرورش با عنوان هنرآموز کامپیوتر مشغول می باشد. نامبرده تجربه تدریس در دانشگاههای متعددی را دارد. زمينههاي تحقيقاتي مورد علاقه ايشان عبارتند از: هوش مصنوعی، محاسبات گراف، معماریهای نرمافزار و مهندسي نرمافزار.
علیمحمد زارع بیدکی تحصيلات خود را در مقطع كارشناسي در سال 1378 از دانشگاه صنعتی اصفهان و مقاطع كارشناسي ارشد و دكتري كامپيوتر بهترتيب در
سالهاي 1381 و 1388 از دانشکده فنی دانشگاه تهران به پايان رسانده است و
هماكنون عضو هيأت علمي دانشكده مهندسي كامپيوتر دانشگاه یزد ميباشد. زمينههاي تحقيقاتي مورد علاقه ايشان شامل بازیابی اطلاعات، موتورهای جستجو، رتبهبندی و پردازش زبانهای طبیعی میباشد.
[1] . Extreme Gradient Boosting
[2] . Regression Tree
[3] . Out of Core
[4] . End to End
[5] . Preprocess
[6] . Split