یادگيري تقويتي، يكي از انواع يادگيري ماشين است كه در آن عامل با استفاده از تراکنش با محيط، به شناخت محیط و بهبود رفتار خود میپردازد. يكي از مشكلات اصلي الگوريتمهاي استاندارد يادگيري تقويتي مانند یادگیری Q اين است که نمیتوانند مسایل بزرگ را در زمان قابل قبولی حل کنند. چکیده کامل
یادگيري تقويتي، يكي از انواع يادگيري ماشين است كه در آن عامل با استفاده از تراکنش با محيط، به شناخت محیط و بهبود رفتار خود میپردازد. يكي از مشكلات اصلي الگوريتمهاي استاندارد يادگيري تقويتي مانند یادگیری Q اين است که نمیتوانند مسایل بزرگ را در زمان قابل قبولی حل کنند. کسب خودکار مهارتها میتواند به شکستن مسأله به زيرمسألههاي کوچکتر و حل سلسلهمراتبی آن کمک کند. با وجود نتایج امیدوارکننده استفاده از مهارتها در یادگیری تقویتی سلسلهمراتبی، در برخی تحقیقات دیگر نشان داده شد که بر اساس وظیفه مورد نظر، اثر مهارتها بر کارایی یادگیری میتواند کاملاً مثبت یا منفی باشد و اگر به درستی انتخاب نشوند میتوانند پیچیدگی حل مسأله را افزایش دهند. از این رو یکی از نقاط ضعف روشهای قبلی کسب خودکار مهارتها، عدم ارزیابی هر یک از مهارتهای کسبشده میباشد. در این مقاله روشهای جدیدی مبتنی بر خوشهبندی گراف برای استخراج زیرهدفها و کسب مهارتها ارائه میگردد. همچنین معیارهای جدید برای ارزیابی مهارتها مطرح میشود که با کمک آنها، مهارتهای نامناسب برای حل مسأله حذف میگردند. استفاده از این روشها در چندین محیط آزمایشگاهی افزایش سرعت یادگیری را به شکل قابل ملاحظهای نشان میدهد.
پرونده مقاله