ترکیب تکنیکهای انتخاب نمونه و دادهافزایي برای حل مسئله طبقهبندی مجموعه دادههای نامتوازن
محورهای موضوعی : مهندسی برق و کامپیوترپرستو محقق 1 , سميرا نوفرستی 2 * , مهری رجائی 3
1 - دانشکده مهندسی برق و کامپیوتر، دانشگاه سیستان و بلوچستان
2 - دانشکده مهندسی برق و کامپیوتر، دانشگاه سیستان و بلوچستان
3 - دانشکده مهندسی برق و کامپیوتر، دانشگاه سیستان و بلوچستان
کلید واژه: انتخاب نمونه, دادهافزایی, طبقهبندی, مجموعه داده نامتوازن, دادهکاوی, یادگیری ماشین,
چکیده مقاله :
در عصر کلاندادهها، تکنیکهای تجزیه و تحلیل خودکار مانند دادهکاوی بهطور گستردهای برای تصمیمگیری بهکار گرفته شده و بسیار مؤثر واقع شدهاند. از جمله تکنیکهای دادهکاوی میتوان به طبقهبندی اشاره کرد که یک روش رایج برای تصمیمگیری و پیشبینی است. الگوریتمهای طبقهبندی بهطور معمول بر روی مجموعه دادههای متوازن بهخوبی عمل میکنند. با وجود این، یکی از مشکلاتی که الگوریتمهای طبقهبندی با آن مواجه هستند، پیشبینی صحیح برچسب نمونههای جدید بر اساس یادگیری بر روی مجموعه دادههای نامتوازن است. در این نوع از مجموعه دادهها، توزیع ناهمگونی که دادهها در کلاسهای مختلف دارند باعث نادیده گرفتهشدن نمونههای کلاس با تعداد نمونه کمتر در یادگیری طبقهبند میشوند؛ در حالی که این کلاس در برخی مسائل پیشبینی دارای اهمیت بیشتری است. بهمنظور مقابله با مشکل مذکور در این مقاله، روشی کارا برای متعادلسازی مجموعه دادههای نامتوازن ارائه میشود که با متعادلنمودن تعداد نمونههای کلاسهای مختلف در مجموعه دادهای نامتوازن، پیشبینی صحیح برچسب کلاس نمونههای جدید توسط الگوریتم یادگیری ماشین را بهبود میبخشد. بر اساس ارزیابیهای صورتگرفته، روش پیشنهادی بر اساس دو معیار رایج در ارزیابی طبقهبندی مجموعه دادههای نامتوازن به نامهای «صحت متعادل» و «ویژگی»، عملکرد بهتری در مقایسه با روشهای دیگر دارد.
Mohaghegh, S. Noferesti*, and M. Rajaei Abstract: In the era of big data, automatic data analysis techniques such as data mining have been widely used for decision-making and have become very effective. Among data mining techniques, classification is a common method for decision making and prediction. Classification algorithms usually work well on balanced datasets. However, one of the challenges of the classification algorithms is how to correctly predicting the label of new samples based on learning on imbalanced datasets. In this type of dataset, the heterogeneous distribution of the data in different classes causes examples of the minority class to be ignored in the learning process, while this class is more important in some prediction problems. To deal with this issue, in this paper, an efficient method for balancing the imbalanced dataset is presented, which improves the accuracy of the machine learning algorithms to correct prediction of the class label of new samples. According to the evaluations, the proposed method has a better performance compared to other methods based on two common criteria in evaluating the classification of imbalanced datasets, namely "Balanced Accuracy" and "Specificity".