دستهبندی، یکی از وظایف مهم دادهکاوی و یادگیری ماشین است و درخت تصمیم به عنوان یکی از الگوریتمهای پرکاربرد دستهبندی، دارای سادگی و قابلیت تفسیر نتایج است. اما در مواجهه با دادههای حجیم، درخت تصمیم بسیار پیچیده خواهد شد و با محدودیتهای حافظه و زمان اجرا مواجه است. چکیده کامل
دستهبندی، یکی از وظایف مهم دادهکاوی و یادگیری ماشین است و درخت تصمیم به عنوان یکی از الگوریتمهای پرکاربرد دستهبندی، دارای سادگی و قابلیت تفسیر نتایج است. اما در مواجهه با دادههای حجیم، درخت تصمیم بسیار پیچیده خواهد شد و با محدودیتهای حافظه و زمان اجرا مواجه است. الگوريتمهاي ساخت درخت باید همه مجموعه داده آموزش و یا بخش زیادی از آن را درون حافظه نگه دارند. الگوریتمهایی که به علت انتخاب زیرمجموعهای از داده با محدودیت حافظه مواجه نیستند، زمان اضافی جهت انتخاب داده صرف میکنند. جهت انتخاب بهترین ویژگی برای ایجاد انشعاب در درخت هم باید محاسبات زیادی بر روی این مجموعه داده انجام شود. در این مقاله، یک رویکرد مقیاسپذیر افزایشی بر مبنای تقسیم سریع و هرس، جهت ساخت درخت تصمیم بر روی مجموعه دادههای حجیم ارائه شده است. الگوریتم ارائهشده درخت تصمیم را با استفاده از کل مجموعه داده آموزش اما بدون نیاز به ذخیرهسازی داده در حافظه اصلی میسازد. همچنین جهت کاهش پیچیدگی درخت از روش پیشهرس استفاده شده است. نتایج حاصل از اجرای الگوریتم بر روی مجموعه دادههای UCI نشان میدهد الگوریتم ارائهشده با وجود دقت و زمان ساخت قابل رقابت با سایر الگوریتمها، بر مشکلات حاصل از پیچیدگی درخت غلبه کرده است.
پرونده مقاله