تشخیص اسپم در شبکه اجتماعی توییتر با استفاده از رویکرد یادگیری ترکیبی
محورهای موضوعی : electrical and computer engineeringمریم فصیحی 1 , محمدجواد شایگان فرد 2 * , زهرا سادات حسینی مقدم 3 , زهرا سجده 4
1 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
2 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
3 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
4 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
کلید واژه: توییتر, شناسایی اسپم, شبکه عصبی, Autoencoder, Softmax,
چکیده مقاله :
امروزه شبکههای اجتماعی، نقش مهمی در گسترش اطلاعات در سراسر جهان دارند. توییتر یکی از محبوبترین شبکههای اجتماعی است که در هر روز 500 میلیون توییت در این شبکه ارسال میشود. محبوبیت این شبکه در میان کاربران منجر شده تا اسپمرها از این شبکه برای انتشار پستهای هرزنامه استفاده کنند. در این مقاله برای شناسایی اسپم در سطح توییت از ترکیبی از روشهای یادگیری ماشین استفاده شده است. روش پیشنهادی، چارچوبی مبتنی بر استخراج ویژگی است که در دو مرحله انجام میشود. در مرحله اول از Stacked Autoencoder برای استخراج ویژگیها استفاده شده و در مرحله دوم، ویژگیهای مستخرج از آخرین لایه Stacked Autoencoder بهعنوان ورودی به لایه softmax داده میشوند تا این لایه پیشبینی را انجام دهد. روش پیشنهادی با برخی روشهای مشهور روی پیکره متنی Twitter Spam Detection با معیارهای Accuracy، -Score1F، Precision و Recall مورد مقایسه و ارزیابی قرار گرفته است. نتایج تحقیق نشان میدهند که دقت کشف روش پیشنهادی به 1/78% میرسد. در مجموع، این روش با استفاده از رویکرد اکثریت آرا با انتخاب سخت در یادگیری ترکیبی، توییتهای اسپم را با دقت بالاتری نسبت به روشهای CNN، LSTM و SCCL تشخیص میدهد.
Today, social networks play a crucial role in disseminating information worldwide. Twitter is one of the most popular social networks, with 500 million tweets sent on a daily basis. The popularity of this network among users has led spammers to exploit it for distributing spam posts. This paper employs a combination of machine learning methods to identify spam at the tweet level. The proposed method utilizes a feature extraction framework in two stages. In the first stage, Stacked Autoencoder is used for feature extraction, and in the second stage, the extracted features from the last layer of Stacked Autoencoder are fed into the softmax layer for prediction. The proposed method is compared and evaluated against some popular methods on the Twitter Spam Detection corpus using accuracy, precision, recall, and F1-score metrics. The research results indicate that the proposed method achieves a detection of 78.1%. Overall, the proposed method, using the majority voting approach with a hard selection in ensemble learning, outperforms CNN, LSTM, and SCCL methods in identifying spam tweets with higher accuracy.