مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 23 3 2026 1 6 Breast Cancer Detection Using a Dataset Balancing Approach تشخیص سرطان سینه با رویکرد متوازن‌سازی مجموعه داده‌ها 179 190 fa زینب عباسی مرکز آموزش عالی محلات 2025 3 16 <p>Imbalanced datasets are one of the major challenges in the automatic diagnosis of diseases. The imbalance in data classes leads to failures in diagnosis, which can be particularly dangerous for diseases such as breast cancer. In this study, a modified version of the ReliefF algorithm, which is a feature selection algorithm, is proposed. The modifications have been made to select and balance instances effectively. The proposed algorithm balances the number of instances in breast cancer datasets to improve diagnosis. In this algorithm, instances are weighted and ranked. After ranking them, the dataset is balanced using the proposed oversampling method based on the instance weights. This algorithm has been applied to two breast cancer datasets: Wisconsin Breast Cancer Dataset (WBCD) and Wisconsin Diagnostic Breast Cancer Dataset (WDBCD). The balanced dataset was then classified using various classification algorithms. The classification results show that performance evaluation metrics have improved compared to the classification of the original data. The best results obtained in  WBCD dataset are Accuracy = 98.04%, G-Mean = 98.00% and in WDBCD dataset are Accuracy = 98.31%, G-Mean = 98.35%. The obtained results indicate the effectiveness of the proposed algorithm in breast cancer diagnosis.</p> <p>یکی از چالش&zwnj;های بزرگ در تشخیص خودکار بیماری&zwnj;ها، وجود مجموعه داده&zwnj;های نامتوازن است. عدم توازن در کلاس&zwnj;های داده، باعث شکست در تشخیص صحیح بیماری توسط سیستم&zwnj;های تشخیصی می&zwnj;شود. این پژوهش الگوریتم جدیدی برای انتخاب و متوازن سازی نمونه&zwnj;ها پیشنهاد داده که بر پایه الگوریتم ReliefF، یک الگوریتم انتخاب ویژگی، است. در الگوریتم پیشنهادی، ابتدا نمونه&zwnj;ها بر اساس شاخص مشابهت با نمونه&zwnj;های همکلاسی و کلاس مخالف، وزن&zwnj;دهی می&zwnj;شوند. پس از رتبه&zwnj;بندی نمونه&zwnj;ها بر اساس وزن&zwnj; آن&zwnj;ها، مجموعه داده&zwnj; با استفاده از روش نمونه&zwnj;برداری فزایندهمتوازن می&zwnj;شود. الگوریتم ارائه شده توانایی کار با مجموعه داده&zwnj;های چند کلاسه و انواع دادههای رشته&zwnj;ای و عددی و وجود مقادیر مفقود را دارد. علاوه بر این، به دلیل امکان انجام محاسبات به طور موازی برای هر نمونه، سربار محاسباتی کمتری نسبت به سایر الگوریتم&zwnj;های متوازن&zwnj;سازی  دارد. این الگوریتم &zwnj;می&zwnj;تواند داده&zwnj;ها را به طور کامل متوازن کرده و نمونه&zwnj;های با اهمیت را تکثیر کند. الگوریتم پیشنهادی روی سه مجموعه سرطان سینه ویسکانسین (WBCD)، مجموعه تشخیصی سرطان سینه ویسکانسین (WDBCD) و مجموعه سرطان سینه SEER اجرا شده است و سپس مجموعه&zwnj;های متوازن شده با الگوریتمهای مختلف طبقه&zwnj;بندی شدند. نتایج طبقه&zwnj;بندی نشاندهنده کارایی روش پیشنهادی و افزایش صحت تشخیص بیماری هستند.</p>

http://ijece.org/fa/Article/Download/49704