روش یادگیری Q یکی از مشهورترین و پرکاربردترین روشهای یادگیری تقویتی مستقل از مدل است. از جمله مزایای این روش عدم وابستگی به آگاهی از دانش پیشین و تضمین در رسیدن به پاسخ بهینه است. یکی از محدودیتهای این روش کاهش سرعت همگرایی آن با افزایش بعد است. بنابراین افزایش سرعت ه چکیده کامل
روش یادگیری Q یکی از مشهورترین و پرکاربردترین روشهای یادگیری تقویتی مستقل از مدل است. از جمله مزایای این روش عدم وابستگی به آگاهی از دانش پیشین و تضمین در رسیدن به پاسخ بهینه است. یکی از محدودیتهای این روش کاهش سرعت همگرایی آن با افزایش بعد است. بنابراین افزایش سرعت همگرایی به عنوان یک چالش مطرح است. استفاده از مفاهیم عمل متضاد در یادگیری Q، منجر به بهبود سرعت همگرایی میشود زیرا در هر گام یادگیری، دو مقدار Q به طور همزمان به روز میشوند. در این مقاله روشی ترکیبی با استفاده از رویه تطبیقی در کنار مفاهیم عمل متضاد برای افزایش سرعت همگرایی مطرح شده است. روشها برای مسئله Grid world شبیهسازی شده است. روشهای ارائهشده بهبود در میانگین درصد نرخ موفقیت، میانگین درصد حالتهای بهینه، متوسط تعداد گامهای عامل برای رسیدن به هدف و میانگین پاداش دریافتی را نشان میدهند.
پرونده مقاله
مسیریابی ربات یکی از موضوعات مهم در مبحث رباتیک سیار است. هدف، پیداکردن یک مسیر پیوسته از یک موقعیت اولیه به یک مقصد نهایی است به طوری که عاری از برخورد بوده و بهینه یا نزدیک به بهینه نیز باشد. از آنجایی که مسئله مسیریابی ربات از نوع مسایل بهینهسازی است، میتوان از الگ چکیده کامل
مسیریابی ربات یکی از موضوعات مهم در مبحث رباتیک سیار است. هدف، پیداکردن یک مسیر پیوسته از یک موقعیت اولیه به یک مقصد نهایی است به طوری که عاری از برخورد بوده و بهینه یا نزدیک به بهینه نیز باشد. از آنجایی که مسئله مسیریابی ربات از نوع مسایل بهینهسازی است، میتوان از الگوریتمهای تکاملی برای حل این مسئله استفاده نمود. امروزه الگوریتم انتخاب کلونال به علت داشتن ویژگیهای محاسباتی ارزنده به دفعات برای حل مسایل مورد استفاده قرار گرفته است، اما در زمینه استفاده از این روش برای حل مسئله مسیریابی ربات تلاشهای بسیار کمی انجام شده است. اندک تلاشهای انجامگرفته نیز در واقع نوعی الگوریتم ژنتیک بهبودیافته میباشند. در این پژوهش با بهرهگیری از تمام ویژگیهای الگوریتم کلونال روشی کارا برای مسیریابی ربات در حضور موانع طراحی شده است. روش ارائهشده در محیطهای متنوع و با اجراهای مختلف از نظر معیارهای طول مسیر پیشنهادی و تعداد نسلهای لازم برای تولید مسیر مورد ارزیابی قرار میگیرد. بر اساس نتایج حاصل از آزمایشهای متعدد، روش ارائهشده عملکرد بهتری نسبت به الگوریتم ژنتیک در تمامی محیطها و همه پارامترهای ارزیابی از خود نشان میدهد. بهخصوص با افزایش تعداد رئوس موانع و نیز موانع مقعر، روش پیشنهادی عملکرد بسیار بهینهتری در مقایسه با الگوریتم ژنتیک از خود نشان میدهد. همچنین مقایسه عملکرد روش پیشنهادی با الگوریتم ترکیبی جغرافیای زیستی-ازدحام ذرات بیانگر برتری الگوریتم مسیریابی مبتنی بر انتخاب کلونال هست.
پرونده مقاله