مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 22 4 2025 6 3 Detection of Spam Pages Using XGBoost Algorithm تشخیص صفحات اسپم با استفاده از الگوریتم XGBoost 287 294 fa ریحانه رشیدپور دانشگاه یزد علی محمد زارع بیدکی دانشگاه یزد 2024 6 18 <p style="direction: ltr;">Today, search engines are the gateway to the web. With the increasing popularity of the web, the efforts to exploit it for commercial, social, and political purposes have also increased, making it difficult for search engines to distinguish good content from spam. The concept of web spam was first introduced in 1996 and quickly became recognized as one of the key challenges for the search engine industry. The phenomenon of spam occurs primarily because a significant portion of web page visits comes from search engines, and users tend to check the first search results. The goal of identifying spam pages is to ensure that these pages cannot achieve high rankings using deceptive strategies. Our effort is to provide an effective method for identifying spam pages, thereby reducing the presence of spam in the top search results. In this article, two methods for combating web spam are proposed. The first method, called XGspam, identifies spam pages based on the XGBoost learning algorithm with an accuracy of 94.27%. The second method, named XGSspam, offers a solution to the challenge of imbalanced web data by combining the SMOTE oversampling algorithm with the XGBoost classification model, achieving an accuracy of 95.44% in identifying spam pages.</p> <p>امروزه موتورهای جستجو دروازه ورود به وب هستند. با افزایش محبوبیت وب، تلاش برای بهره&zwnj;برداری تجاری، اجتماعی و سیاسی از وب نیز افزایش یافته و در نتیجه تشخیص یک محتوای خوب از اسپم برای موتورهای جستجو دشوار شده است. مفهوم اسپم وب نخستین بار در سال 1996 معرفی شد و خیلی زود به عنوان یکی از چالش&zwnj;های کلیدی برای صنعت موتور جستجو شناخته شد. پدیده اسپم اساساً به این دلیل اتفاق می&zwnj;افتد که بخش قابل توجهی از مراجعات به صفحه وب از موتور جستجو می&zwnj;آیند و کاربران تمایل به بررسی اولین نتایج جستجو دارند. هدف از شناسایی صفحات اسپم این است که این صفحات با استفاده از استراتژی&zwnj;های فریب قادر به کسب رتبه بالا نباشند. تلاش ما ارائه روشی مؤثر در شناسایی صفحات اسپم و در نتیجه کاهش حضور اسپم در نتایج اول جستجوست. در این مقاله دو روش برای مقابله با اسپم وب پیشنهاد شده است. روش اول به نام XGspam صفحات اسپم را بر اساس الگوریتم یادگیری XGBoost با دقت 27/94% شناسایی می&zwnj;کند. در روش دوم به نام XGSspam راهکاری برای چالش نامتوازن&zwnj;بودن داده&zwnj;های وب با استفاده از ترکیب الگوریتم بیش&zwnj;نمونه&zwnj;برداری SMOTE با مدل دسته&zwnj;بندی XGBoost ارائه شده که به دقت 44/95% در شناسایی صفحات اسپم می&zwnj;رسد.</p>

http://ijece.org/en/Article/Download/47119