هوش مصنوعی | متن کامل رایگان | استراتژی‌های بهینه‌سازی برای محیط‌های بازی آتاری: ادغام الگوریتم بهینه‌سازی مار و بهینه‌سازی دره انرژی در مدل‌های یادگیری تقویتی

۲٫ بررسی ادبیات

RL توجه زیادی را در حوزه بازی به خود جلب کرده است و یک الگوی یادگیری با کاوش را برای بهینه‌سازی پاداش‌های کوتاه‌مدت و بلندمدت به کار گرفته است. به طور قابل توجهی، یک مدل RL برای بازی Othello طراحی شد، و این مدل برای بازی Othello به تنهایی آموزش داده شد. [۱۱]. نتایج با استفاده از DRL، به‌ویژه در بازی‌های آتاری، بسیار چشمگیر هستند، که وقتی ترکیبی از یادگیری Q و CNN در پردازش پیکسل‌های تصویری که توابع ارزش را ایجاد می‌کنند، به‌طور قابل توجهی نتایج را بهبود بخشید. در اصل، این نشان دهنده بهبود ایجاد شده در هفت بازی مختلف آتاری، از شناخته شده ترین تا چالش برانگیز است. [۱۲]. قلمرو RL به ایجاد تجربیات یادگیری تعاملی در محیط های بازی آموزشی کمک کرده است و همچنین افق جدیدی را برای فناوری آموزشی باز کرده است. [۱۳,۱۴,۱۵]. خودبازی یکی از تکنیک های RL است که در آن عوامل مهارت خود را با بازی بین خود بهبود می بخشند. این تکنیک برای مدت طولانی در حوزه بازی بسیار موفق بوده است. بهترین نمونه استفاده از آن در بازی Go است که با توسعه مدل AlphaGo یکی از بهترین مدل ها می باشد. با ترکیب شبکه های عصبی و جستجوی درختی Montecarlo، تا حد زیادی از همه برنامه های موجود Go بهتر عمل کرد. این تکنیک‌ها بعداً به‌طور کلی با چارچوب AlphaZero تأیید شدند، که می‌توانست در بازی‌هایی مانند Go، Chess و Shogi که Shogi یک نوع ژاپنی از شطرنج است، استفاده شود. فریمورک AlphaZero در یادگیری قوانین بازی بدون دانستن دامنه و شکست دادن قهرمانان جهان در هر سه بازی موثر است. [۱۶]. بازی های استراتژی زمان واقعی توسط RL فتح شده اند. در Boulder Dash، تکنیک های مختلف DRL مانند DQN برای کاهش تأخیر تصمیم به کار گرفته شد [۱۷]. علاوه بر این، بازپخش تجربه به الگوریتم بازیگر منتقد منتقل می‌شود، و کارهایی که با این الگوریتم حل می‌شوند، کارهای پیوسته و گسسته هستند – به عنوان مثال، توسط معیارهای Atari و Mujoco. این یک تخمین تابع ارزش جدید فراتر از یادگیری کلاسیک Q به ارمغان می آورد [۱۸]. StarCraft II، به هر حال، یکی از شناخته شده ترین بازی ها از نظر پیچیدگی و رقابت، و در عین حال، یکی از شناخته شده ترین موضوعات مطالعات هوش مصنوعی، به ویژه با توجه به اهمیت آن در رویدادهای ورزشی است. [۱۹]. در یک رویداد بی سابقه در ابتدای سال ۲۰۱۹، Google DeepMind AlphaStar را معرفی کرد. چند ماه بعد، این هوش مصنوعی اولین پیروزی قابل توجه خود را در برابر یک بازیکن حرفه ای برتر، Grzegorz Komincz، در بازی StarCraft II به دست آورد. نتیجه نهایی ۵ بر ۰ بود [۲۰]. AlphaStar در ادغام DL و RL و DNN (شبکه عصبی عمیق) منحصر به فرد است که در نتیجه می تواند داده های خام را به طور موثر پردازش کند. [۲۱]. در طراحی این سیستم، معماری هوش مصنوعی «Transformer» قرار دارد. دارای مکانیسم های توجه مبتنی بر پشتیبانی RNN (شبکه های عصبی مکرر) و CNN (شبکه های عصبی کانولوشنال) است. علاوه بر این، سیستم با هسته LSTM و استراتژی های تطبیقی برای افزایش کیفیت “جعبه سیاه” پیشرفته شده است. [۲۲,۲۳]. سیستم یادگیری AlphaStar ابتدا از SL استفاده کرد که با تماشای و کپی کردن گیم پلی انسان تا حد تقلید از قبل آموزش داده شده بود. پس از این پیش‌آموزش، ترکیب Multiagent AlphaStar – سیستمی از عوامل هوش مصنوعی – طی دو هفته در نبردهای همه‌جا حاضر شد و قابلیت‌های درون بازی خود را برای پیشروی از دشمنان منفرد و دسته‌جمعی افزایش داد. این سیستم از رویکرد بازیگر-منتقد خارج از سیاست، بازپخش تجربه و تقلید از خود برای بهبود وزن شبکه‌های عصبی استفاده می‌کند. [۲۴]. در کار اصلی دیگر، دانشمندان یک چارچوب DRL جدید برای بازی های ماجراجویی مبتنی بر متن ایجاد کردند [۲۵]. این سیستم از یک نمودار دانش برای هرس صحیح اقدامات استفاده می‌کند و از تکنیک‌های پاسخ‌گویی به پرسش برای آموزش استفاده می‌کند. این سیستم در مقایسه با تکنیک های کنونی از کاربرد برتر برخوردار بود. به‌طور مستقل، یکی دیگر از نمایندگان مبتنی بر DRL، LeDeepChef، مهارت خود را در بازی‌های مبتنی بر متن نشان داد که در مسابقه First TextWorld Problems سازمان‌دهی شده توسط Microsoft Research به مقام دوم دست یافت. [۲۶]. چارچوب هوش مصنوعی ReBeL با فشار دادن مرزهای استفاده از RL، اثربخشی فوق‌العاده‌ای را در بازی‌های اطلاعاتی ناقص، به عنوان مثال، پوکر تگزاس هولدم، با ترکیبی از تکنیک‌های RL و جستجو نشان داد. [۲۷]. برای فشار بیشتر DRL، در غلبه بر مشکلات کنترل پیچیده در بازی‌های MOBA 1v1 استفاده شده است. به عنوان مثال می توان به استفاده از “Honor of Kings” توسط عامل Solo AI از Tencent اشاره کرد. به طور خاص، ساخت الگوریتم‌هایی برای غلبه بر بازی‌های جریان اصلی، حوزه‌ای بوده است که عمدتاً برای شرکت‌های بزرگ فناوری، از جمله DeepMind گوگل و مایکروسافت، قابل دسترسی بوده است. بیشتر کارهای پیشگامانه در فضای RL گزارش شده است. قابل تکرار است که تقریباً تمام مقایسه‌ها بین بازیکنان هوش مصنوعی بر اساس بازی‌هایی مانند آتاری و بازی‌های رومیزی اساسی انجام می‌شود. هیچ معیار عملکرد یا درک اجتماعی برای بازی های استراتژی یا MOBA وجود ندارد و این بزرگترین مانع است. باز هم، کار DeepMind، برای مثال، عملکرد الگوریتم‌های DQN که یادگیری Q را با DNN در بازی‌های Atari ترکیب می‌کنند، معیار را تعیین کرده است، زیرا اندازه‌گیری عملکرد انسان وجود دارد که می‌توان با آن مقایسه کرد. [۲۸].

یادگیری ماشینی متدولوژی های مختلفی را در بر می گیرد، با سه نوع اصلی یادگیری تحت نظارت، بدون نظارت و یادگیری تقویتی (RL). [3]. هر نوع دارای قابلیت های منحصر به فردی است، به ویژه در مدیریت داده ها و یادگیری از آنها. تکنیک‌های یادگیری ماشین معمولاً برای استخراج ویژگی‌ها از داده‌ها به برنامه‌نویسی صریح نیاز دارند. در مقابل، یادگیری عمیق این فرآیند را خودکار می‌کند و به آن اجازه می‌دهد تا مجموعه داده‌های عظیم را به طور کارآمد مدیریت کند و داده‌های پیچیده و بدون ساختار مانند تصاویر و صدا را پردازش کند.

با توجه به ظرفیت‌های تطبیقی، مدل‌های یادگیری عمیق مخصوصاً برای برنامه‌های پویا و بلادرنگ مانند سیستم‌های توصیه و وسایل نقلیه خودران مناسب هستند. با این حال، این برنامه ها اغلب به دلیل فقدان مجموعه داده های گسترده با چالش هایی روبرو هستند. RL [8] این چالش‌ها را با توانمندسازی مدل‌ها برای یادگیری رفتارهای بهینه از طریق تعامل مستقیم با محیط خود برطرف می‌کند و آن را برای سناریوهایی که نیاز به تصمیم‌گیری متوالی دارند ایده‌آل می‌کند. عامل RL بازخورد را در قالب پاداش دریافت می کند و آن را به سمت اقدامات سودمند هدایت می کند و در عین حال اقدامات مؤثر کمتری را جریمه می کند. این فرآیند شامل متعادل کردن اکتشاف استراتژی های جدید و بهره برداری از مسیرهای شناخته شده برای به حداکثر رساندن پاداش است.

رویکرد یادگیری تطبیقی RL برای سیستم های توصیه (RS) که با مسائلی مانند شروع سرد و پراکندگی داده ها دست و پنجه نرم می کنند، سودمند است. RS مبتنی بر RL [29] دقت، ارتباط و تنوع توصیه‌ها را در حوزه‌های مختلف از جمله اخبار، آموزش، خرده‌فروشی و سرگرمی بهبود می‌بخشد. هنگامی که با یادگیری عمیق ترکیب می شود، RL همچنین می تواند ورودی های حسی با ابعاد بالا را پردازش کند، همانطور که در برنامه هایی مانند بازی های Atari نشان داده شده است.

شبکه Q-Deep (DQN) یک الگوریتم برجسته در RL عمیق است که به چالش‌های تصمیم‌گیری در محیط‌هایی با ورودی‌های حسی با ابعاد بالا می‌پردازد. راهزنان چند مسلح و متنی اشکال ساده تری از RL هستند که بر مبادله اکتشاف و بهره برداری تمرکز می کنند، که برای توصیه های شخصی بسیار مهم است. الگوریتم های محبوب در این زمینه عبارتند از کران اطمینان بالا (UCB)، نمونه برداری تامسون و LinUCB.

در امنیت، به ویژه در اینترنت اشیا (IoT)، RL برای افزایش حفاظت در برابر تهدیدات استفاده می شود، اگرچه کاربرد آن در درجه اول در محیط های شبیه سازی شده به دلیل هزینه های بالای پیاده سازی در دنیای واقعی است. RL همچنین نقش مهمی در رباتیک، به ویژه در توسعه ربات های اجتماعی برای برنامه های مراقبت های بهداشتی ایفا می کند. این روبات ها از همدلی شناختی برای تعامل و مراقبت بهتر با سالمندان استفاده می کنند.

در حوزه پردازش زبان طبیعی، RL عملکرد را به طور قابل توجهی افزایش می دهد. یادگیری تقویتی معکوس (IRL) [30]یک گونه از RL، به ویژه در محیط هایی که ساختارهای پاداش و احتمالات انتقال ناشناخته هستند مفید است. IRL از مشاهده رفتارهای متخصص می آموزد و هدف آن تکرار موثر این اقدامات است.

نکته قابل توجه، RL نتایج چشمگیری در بازی نشان داده است، جایی که مدل‌هایی مانند AlphaZero بازی‌های پیچیده را از طریق خودبازی بدون دانش قبلی دامنه یاد گرفته‌اند و در نهایت از قهرمانان انسانی پیشی گرفته‌اند. فرآیندهای تصمیم گیری خودکار با استفاده از DQN با موفقیت در محیط های بازی بلادرنگ مانند Boulder Dash به کار گرفته شده است. [۳۱]و پیشرفت‌هایی مانند بازپخش تجربه، کارایی الگوریتم‌های منتقد بازیگر را بهبود بخشیده است. [۱۸]. این تکنیک‌ها به مدل‌های RL اجازه می‌دهند تا به طور موثر در وظایف پیوسته و گسسته عمل کنند و تطبیق پذیری و استحکام آن‌ها را نشان دهند.

پردازش زبان طبیعی (NLP) از برنامه های کاربردی مختلفی مانند دستیاران هوشمند، ترجمه زبان و تجزیه و تحلیل متن استفاده می کند. یک بررسی استفاده از یادگیری تقویتی (RL) در NLP را مورد بحث قرار داد، با تمرکز بر کاربردهایی از جمله تجزیه نحوی، درک زبان، تولید متن و ترجمه ماشینی. [۳۲].

مدل‌های RL به‌ویژه در مسیریابی محیط‌هایی که در جریان ثابت هستند ماهر هستند و وقتی با یادگیری تقویتی عمیق (DRL) ترکیب می‌شوند، تمایل به نتایج عالی دارند. خلاصه سازی متن، که به دو شکل استخراجی و انتزاعی می آید، حوزه ای است که RL در آن اعمال شده است. خلاصه نویسی استخراجی بر شناسایی جملات کلیدی متمرکز است، در حالی که خلاصه سازی انتزاعی شامل بازنویسی و فشرده سازی متن است که پیچیده تر است. یک بررسی جامع جنبه‌های مختلف خلاصه‌سازی خودکار متن را از طریق یادگیری RL و انتقال، بررسی الگوریتم‌ها، مجموعه داده‌ها، چالش‌ها، راه‌حل‌ها و ارزیابی عملکرد پوشش می‌دهد. [۳۳].

در حوزه معاملات خودکار، مدل هایی مانند ResNet و LSTM نشان داده شده است که عملکرد بهتری از رویکردهای مبتنی بر RL دارند. [۳۴]. یک برنامه جدید از یک شبکه عصبی تصادفی با استفاده از DRL روندهای پیش بینی شده در داده های بازار، از جمله حرکات صعودی، نزولی و خنثی [۳۵]. برای تحلیل بازار سهام پیشنهاد شده است که رویکرد حافظه کوتاه مدت موثرتر از اتکا به تحلیل تاریخی بلندمدت است. علاوه بر این، یک استراتژی DQN چند عاملی به طور خاص برای معاملات خودکار طراحی شده است، با تنظیم دقیق پارامترهایی مانند توابع فعال‌سازی، تعداد Q-Networks، نرخ‌های یادگیری و فاکتورهای تخفیف، به‌ویژه همانطور که در فارکس (EUR/USD) آزمایش شده است. ) مجموعه داده [۳۶].

استفاده از DQN همچنین به مدل‌های مالی برای محاسبه امتیازات اعتباری تعمیم داده شده است که تابع پاداش به صورت پویا در حال تغییر است. [۳۷]. یادگیری تقویتی معکوس (IRL) در شرایطی استفاده می شود که برای توسعه دهندگان غیرعملی است که به طور صریح توابع پاداش را مشخص کنند. IRL مدل سازی رفتار متخصص را در عوامل RL امکان پذیر می کند و عملکرد آنها را در وظایف مورد نظر بهبود می بخشد. این تکنیک با موفقیت در تنظیمات چند نفره و غیرهمکاری به کار گرفته شده است [۳۸]. علاوه بر این، یک رویکرد مبتنی بر داده برای IRL برای تقویت یادگیری در محیط های چند نفره پیشنهاد شده است [۳۹].

این مطالعات مجموعاً کاربرد و اثربخشی گسترده RL و DRL را در زمینه‌های مختلف، از NLP و تجارت خودکار گرفته تا محیط‌های پیچیده چند نفره نشان می‌دهند، و توانایی آن‌ها را برای انطباق و برتری در شرایط تغییر پویا نشان می‌دهند.

۴٫ مواد و روش ها

رویکرد تصفیه‌شده برای تسلط بر بازی Ms. Pac-Man با استفاده از یادگیری تقویتی عمیق (DRL) با استراتژی‌های بهینه‌سازی پیچیده همکاری می‌کند. مرکز اصلی سیستم عامل DQN است که از یک شبکه Q-Network استفاده می کند – یک شبکه عصبی پیچیده که در تشخیص سودمندترین اقدامات در سناریوی بازی ماهر است. رویکرد پیشنهادی توسط Replay Buffer پشتیبانی می‌شود، ویژگی جدایی‌ناپذیری که گیم‌پلی قبلی را بایگانی و دوباره بررسی می‌کند و از یک سفر یادگیری قوی و پیشرونده اطمینان می‌دهد. این تکنیک با در هم تنیدگی الگوریتم بهینه‌سازی مار (SOA) و بهینه‌سازی دره انرژی (EVO)، که هر دو از الگوریتم‌های مبتنی بر ژنتیک الهام گرفته‌اند، برای بهینه‌سازی فراپارامترهای حیاتی، بهبود یافته و در نتیجه کارایی کلی سیستم را افزایش می‌دهد. SOA، با الهام از رفتارهای طبیعی مارها، به ویژه الگوهای تغذیه، مبارزه و جفت گیری آنها، جمعیت را به نر و ماده طبقه بندی می کند و استراتژی های بقای پیچیده آنها را از طریق عملیات دو مرحله ای شبیه سازی می کند: مراحل اکتشاف و بهره برداری. در طول مرحله اکتشاف، مارها به طور تصادفی به جستجوی غذا می پردازند و کاوش راه حل های متنوع را تشویق می کنند و از همگرایی زودهنگام به راه حل های غیربهینه جلوگیری می کنند. در مرحله بهره برداری، زمانی که غذای کافی در دسترس باشد، رفتار جستجو جهت دارتر می شود، راه حل های یافت شده در مرحله اکتشاف را اصلاح می کند و جستجو را به سمت راه حل های بهینه هدایت می کند. SOA از دما به‌عنوان یک عامل حیاتی برای تأثیرگذاری بر رفتار مارها استفاده می‌کند، که اجازه می‌دهد بین اکتشاف و بهره‌برداری تعادل برقرار کند، و برای بهینه‌سازی فراپارامترها در محیط‌های پویا و پیچیده مانند Ms. PacMan مناسب است.

در همین حال، EVO از فیزیک ذرات، به‌ویژه رفتار ذرات زیراتمی که برای پایداری تلاش می‌کنند، الهام می‌گیرد، بر اساس مفهوم «دره انرژی»، که نشان‌دهنده حالتی است که در آن ذرات در پایدارترین شکل خود هستند، که توسط سطوح بهینه نوترون‌ها محدود شده‌اند. N) و پروتون ها (Z). EVO با تنظیم نسبت N/Z تمایل طبیعی ذرات به انتشار انرژی و تبدیل به اشکال پایدارتر را تقلید می کند، بنابراین ذرات را به سمت دره انرژی خود حرکت می دهد. این فرآیند شامل ارزیابی پایداری پیکربندی هر ذره و تنظیم مکرر پارامترها برای دستیابی به حالت پایدارتر، مشابه یافتن راه‌حل بهینه در فضای مشکل است. ادغام SOA و EVO در ESO نه تنها هایپرپارامترها، بلکه حلقه آموزشی را نیز هدف قرار می دهد و به طور مداوم پارامترهای عامل DQN را به روز می کند تا زمانی که پارامترهای بهینه شناسایی شوند، همانطور که با بازخورد پاداش از محیط نشان می دهد. ESO با مقدار دهی اولیه جمعیت متنوعی از راه حل های بالقوه شروع می شود که هر کدام مجموعه ای منحصر به فرد از فراپارامترها را نشان می دهند. سپس عملکرد هر راه حل بر اساس پاداش های به دست آمده در طول بازی ارزیابی می شود و بهترین راه حل ها برای نسل بعدی انتخاب می شوند. راه‌حل‌های انتخاب‌شده برای معرفی تنوع و کشف راه‌حل‌های بالقوه جدید متقاطع و جهش می‌شوند و از جستجوی گسترده در فضای فراپارامتر اطمینان می‌دهند. تاثیر متقابل این عناصر در یک راه حل جامع و موثر برای چالش های ایجاد شده توسط محیط بازی خانم PacMan به اوج می رسد. هر مؤلفه – از Q-Network و Replay Buffer گرفته تا بهینه‌سازی ابتکاری ESO – با مؤلفه بعدی همکاری می‌کند تا استراتژی را اصلاح کند، همانطور که در بخش‌های بعدی توضیح داده شد.

۴٫۱٫ راه اندازی و آماده سازی محیط

ایجاد یک پایه قوی برای موفقیت پروژه خانم PacMan بسیار مهم است. اقدامات اولیه انجام شده برای ایجاد یک راه اندازی قابل اعتماد و موثر در این بخش توضیح داده شده است. نصب کتابخانه ها و بسته های مورد نیاز این فرآیند را آغاز می کند. این منابع نه تنها رویه‌ها را قادر می‌سازند تا به خوبی اجرا شوند، بلکه عملکردهای کاربردی ضروری مورد نیاز برای مراحل بعدی آزمایش را نیز فراهم می‌کنند. استفاده از جدیدترین نسخه‌های این ابزارها، سازگاری و کارایی را بهینه می‌کند.

سپس، جعبه ابزار OpenAI's Gym تنظیمات بازی Ms. PacMan را قرار داد. در زمینه RL، Gym به دلیل رابط استاندارد خود شناخته شده است، که تعامل با بازی، پردازش مشاهدات و انجام اقدامات را آسان تر می کند. چنین استانداردسازی برای اطمینان از اینکه آزمایش‌ها می‌توانند بارها و بارها با نتایج قابل مقایسه در یک زمینه تحقیقاتی گسترده‌تر انجام شوند، ضروری است. سپس چندین پارامتر کلیدی آزمایش را توصیف می‌کنیم، از جمله فضای بازی (همه اقدامات ممکن برای خانم PacMan)، فضای مشاهده (نحوه مدل‌سازی حالت انتزاعی یک بازی)، و ساختار پاداش. این پارامترها ضروری هستند، زیرا بر فرآیند یادگیری یک عامل DQN تأثیر می‌گذارند و به آن کمک می‌کنند تا یک استراتژی را یاد بگیرد و تصمیم‌گیری کند.

به طور خلاصه، مرحله راه اندازی و آماده سازی محیط به عنوان پس زمینه ای برای آزمایش عمل می کند. این تضمین می کند که اجرای آموزش Q-Network و استفاده از الگوریتم بهینه سازی مار برای تنظیم هایپرپارامتر بر روی یک پایه سالم ساخته شده است، بنابراین منجر به نتایج موفقیت آمیز در مراحل بعدی می شود.

در شکل ۱، راه اندازی جامع روش پیشنهادی خود را ترسیم می کنیم. این تصویر رویکرد کلی را در بر می گیرد و هر جزء حیاتی و تعاملات بین آنها را با جزئیات توضیح می دهد. این شکل به گونه‌ای طراحی شده است که یک نمایش بصری واضح از گردش کار و مکانیسم‌هایی که متدولوژی ما را تشکیل می‌دهند، ارائه می‌کند، و درک عملکرد آن و فرآیندهای متوالی درگیر را تسهیل می‌کند.

۴٫۲٫ طراحی و عملکرد Q-Network

در هسته فرآیندی که توسط آن به خانم PacMan تسلط می‌یابیم، شبکه Q است که از یک شبکه عصبی کانولوشنال استفاده می‌کند که برای محاسبه مقادیر Q برای تعدادی از حالت‌های بازی در نظر گرفته شده است. Q-Network گوشت فرآیند RL را تشکیل می دهد. تخمین دقیق این مقادیر Q، که چیزی جز پاداش‌های مورد انتظار در مورد اقدامات خاص در حالت‌های معین نیستند، چیزی است که هدایت عامل را به سمت فعالیت‌هایی که در آن‌ها حداکثر سود با توجه به زمان وجود دارد، ممکن می‌سازد.

معماری Q-Network با در نظر گرفتن الزامات خاص بازی‌های آتاری مانند، مانند موارد Ms. PacMan، همراه با ادغام لایه‌های کانولوشن برای تفسیر ورودی‌های بصری مبتنی بر پیکسل طراحی شده است. از آنجایی که چیدمان پیچ و خم، موقعیت ارواح، و محل گلوله هایی که بازی در اطراف آن ها در Ms. PacMan انجام می شود، شناسایی و به روابط و الگوهای فضایی رمزگشایی می شوند، این لایه ها قدرت خود را توسعه می دهند. سپس اطلاعات بصری قبل از رسیدن به یک لایه متراکم که در آن مقادیر Q برای تمام اقدامات موجود عامل ارائه می شود، از لایه های دیگر شبکه عبور داده می شود.

شبکه Q با یک تابع ضرر، معمولاً میانگین مجذور تلفات، بهینه‌سازی می‌شود تا تفاوت بین مقدار Q پیش‌بینی‌شده و هدف‌گذاری شده را تعیین کند. در اینجا، مقادیر Q هدفمند مستقیماً از معادله بلمن می‌روند و مقادیر Q فعلی را به پاداش‌های آینده و حداکثر Q-مقدارهای حالت‌های بعدی متصل می‌کنند. به این ترتیب، یک طرح بازگشتی به تخمین ارزش بلند مدت با هر اقدام انجام شده کمک می کند و انتخاب های عامل را هدایت می کند.

به این ترتیب عامل به صورت پویا و همیشگی آموزش می بیند و تجربه جدیدی از تعامل با محیط بازی را جمع آوری می کند. بنابراین، عامل می تواند تصمیمات بهتری بگیرد، زیرا به صورت پویا شبکه را با چنین ارتقاهایی به روز می کند که امکان اصلاح در تقریب های Q-value را فراهم می کند. بازپخش تجربه به شبکه اجازه می دهد تا از تجربیات ذخیره شده قبلی دوباره بیاموزد، بنابراین همبستگی بین تجربیات متوالی را شکسته و ثبات و استحکام یادگیری را تضمین می کند.

علاوه بر این، با اضافه کردن به آن، نوسانات در فرآیند یادگیری را با استفاده از تکنیک هایی مانند شبکه های هدف و پخش مجدد تجربه متوقف می کند. روش‌های خارج از سیاست با شبکه‌های هدف، مقادیر هدف را برای مدت زمان ثابتی حفظ می‌کنند تا نوسانات و واگرایی در تخمین Q-value را مهار کنند.

تحت فرآیند یادگیری تکراری، شبکه Q به تدریج در پیش بینی مقادیر Q با افزایش دور آف بهتر می شود، بنابراین عامل قادر به تصمیم گیری بهینه است. این یک فرآیند انطباق مادام‌العمر و مستمر برای عامل خواهد بود تا محیط بازی را کشف کند، خود را با چالش‌های جدید هماهنگ کند و عملکرد را در طول زمان افزایش دهد، با یک مکانیسم آموزشی خوب طراحی‌شده برای تکامل یک عامل RL ماهر ضروری است.

معماری Q-Network مطابق با الزامات خانم PacMan خواهد بود. شبکه از دو بخش اصلی تشکیل شده است: یک بخش کانولوشن و یک بخش کاملاً متصل (متراکم). قسمت کانولوشن از سه لایه تشکیل شده است. لایه اول از پیکسل های خام ورودی می گیرد و ۳۲ فیلتر با اندازه ۸ × ۸ را با گام ۴ اعمال می کند. سپس ReLU برای غیر خطی بودن استفاده می شود. این کار برای گرفتن ویژگی های گسترده و مهم در مراحل اولیه پردازش انجام می شود. لایه دوم از ۶۴ فیلتر با اندازه ۴ × ۴ با گام ۲ استفاده می کند تا تاکید بیشتری بر الگوهای فضایی ریز دانه و دقیق داشته باشد. لایه سوم از ۱۲۸ فیلتر در اندازه ۳ × ۳ با گام ۱ استفاده می کند تا جزئیات دقیق تری را ثبت کند. همه لایه‌ها با یک فعال‌سازی ReLU دنبال می‌شوند که غیرخطی بودن را معرفی می‌کند و شبکه را در تشخیص الگوهای بسیار پیچیده بهتر می‌کند.

سپس داده های پردازش شده صاف می شوند و پس از مرحله کانولوشن به قسمت متراکم هدایت می شوند. این شامل یک عملیات خطی است که به ۵۱۲ نورون از خروجی کانولوشنال متصل می شود و به دنبال آن فعال سازی ReLU برای یادگیری مناسب و غیرخطی بودن انجام می شود. یک افت احتمال ۰٫۵ برای جلوگیری از برازش بیش از حد و برای اجرای منظم برای تعمیم بهتر اضافه شد. سپس اطلاعات به ۲۵۶ نورون می رود و در نهایت با یک عملیات خطی، مقادیر Q برای هر اقدامی که عامل می تواند در بازی انجام دهد، به دست می آید. این لایه‌های پیچیده و متراکم، بلوک‌های سازنده یک معماری کامل هستند که برای پردازش ورودی بصری مؤثر و شناسایی الگوهای پیچیده در بازی و تبدیل آنها به عملکرد بهینه بازی با انتخاب استراتژی‌های اکشن استفاده می‌شوند. اندازه لایه‌ها، ابعاد فیلترها و انتخاب توابع فعال‌سازی در معماری داده‌شده به‌گونه‌ای انتخاب می‌شوند که پیچیدگی مربوط به محیط خانم PacMan در نظر گرفته شود، در نتیجه اطمینان می‌دهد که عامل می‌تواند در محیط اطراف حرکت کند و استراتژیک ایجاد کند. تصمیمات به طور موثر بر اساس ورودی بصری دریافت می شود.

۴٫۳٫ اجرای بازپخش تجربه برای یادگیری پایدار

بازپخش تجربه یک جزء حیاتی در استراتژی RL است، به ویژه برای پرداختن به چالش هایی مانند همبستگی های زمانی و ماهیت در حال تکامل داده ها در چنین محیط هایی. برخلاف روش‌های سنتی که مستقیماً از تجربیات متوالی یاد می‌گیرند، که می‌تواند به داده‌های مرتبط و مسیرهای یادگیری ناپایدار منجر شود، بازپخش تجربی تجربیات یا انتقال‌های فردی را ذخیره می‌کند و به‌طور تصادفی از آنها بازدید می‌کند. این انتقال‌ها شامل تاپل‌هایی هستند که شامل وضعیت فعلی، اقدام انجام شده، پاداش به‌دست‌آمده، وضعیت زیر و نشان‌دهنده پایان یافتن بازی پس از عمل است. این تاپل ها در یک Replay Buffer ذخیره می شوند، یک بانک حافظه که به طور مداوم در هنگام تعامل عامل با بازی پر می شود.

کارایی Replay Buffer در جزئیات اجرای آن است. به طور معمول، بافر در اندازه معینی ثابت می شود، به عنوان مثال، ۱ میلیون انتقال، تا تضمین شود که تجربیات گسترده اما متنوع آن را پر می کند و منابع حافظه را بیش از حد مصرف نمی کند. اگر تجربه قدیمی خود را توجیه کند، آنگاه می‌توان زباله‌هایی را جمع‌آوری کرد تا به تجربیات جدید فضا داده شود، بنابراین کمیت داده‌های جدید را با داده‌های تاریخی متعادل می‌کند.

معمول ترین انطباق استراتژی ها، نمونه گیری تصادفی یکنواخت است که در آن هر آزمایش با احتمال یکسان انتخاب می شود. تصادفی بودن این استراتژی زنجیره تجربیات مرتبط نزدیک را خواهد گسست و حتی خاطرات ارزشمند قدیمی‌تر نیز می‌توانند بخشی از فرآیند به‌روزرسانی باشند و مسیر یادگیری کامل را پایدار و موثر نشان دهند.

به عبارت دیگر، Replay Buffer امکان استفاده مکرر از داده‌ها را برای فرآیند یادگیری فراهم می‌کند و عامل را قادر می‌سازد تا چندین بار از یک تجربه یاد بگیرد. این امر به‌ویژه در محیط‌های پیچیده‌ای مانند محیط خانم PacMan، که در آن تجربیات کمیاب اما ارزشمند واقعاً به حساب می‌آیند، بسیار مهم خواهد بود. سپس یک عامل می تواند دوباره وارد این تجربه شود، چالش بازی را بیشتر درک کند و یاد بگیرد که چگونه حتی بهتر سازگار شود. این اساساً تصادفی و تنوع را در روند یادگیری القا می کند، از بافر Replay که بعدا توضیح داده خواهد شد. با انجام این کار، این روش همبستگی زمانی را کاهش می دهد و تجربه دریافت شده توسط عامل با تعاملات مختلف گذشته را متنوع می کند. با هم، الگوی مورد نیاز در DRL را با خانم PacMan ترسیم می کند.

۴٫۴٫ نقش و وظایف عامل DQN

عامل DQN در سازماندهی تعاملات پیچیده بین عامل و محیط بازی خانم PacMan نقش اساسی دارد. این مسئولیت دوگانه تصمیم گیری در مورد اقدامات عامل و آموزش Q-Network بر اساس نتایج این اقدامات را بر عهده دارد. انتخاب اقدام در عامل DQN بر اساس یک اصل متعادل کننده کاوش و بهره برداری عمل می کند. در ابتدا، زمانی که دانش عامل از محیط محدود است و مقادیر Q آن تصفیه نشده است، عامل بر کاوش تأکید می کند. این معمولاً از طریق یک استراتژی حریصانه اپسیلون مدیریت می شود. عامل به طور تصادفی اقدامات با احتمال تعریف شده توسط اپسیلون را برای کاوش در محیط انتخاب می کند و برای تصمیم گیری های باقی مانده به بالاترین اقدامات Q-value تکیه می کند و از دانش فعلی خود استفاده می کند. همانطور که آشنایی عامل با محیط بهبود می یابد و قابلیت اطمینان Q-value آن افزایش می یابد، اپسیلون به تدریج کاهش می یابد و تعادل به سمت بهره برداری متمایل می شود.

پس از اجرای اکشن، عامل DQN نقش مهمی در آموزش Q-Network ایفا می کند. از طریق بافر Replay، دسته‌ای تصادفی از تجربیات را نمونه‌برداری می‌کند و مقادیر Q هدف را بر اساس پاداش‌های به‌دست‌آمده و همچنین مقادیر Q پیش‌بینی‌شده در حالات آینده محاسبه می‌کند. هدف الگوریتم DQN این است که این مقادیر Q هدف را به آنچه که از تخمین‌های معادله بلمن اندازه‌گیری می‌کنیم (همانطور که توسط شبکه Q-شبکه ما پیش‌بینی می‌شود) نزدیک‌تر کند – معمولاً از طریق گرادیان نزول یا برخی از انواع آن. در تئوری، همانطور که مدل به طور مکرر اقدامات را انتخاب می کند، تجربه را جمع می کند و شبکه را در یک حلقه بی پایان به روز می کند، این چرخه یادگیری به تدریج هم استراتژی ها و هم درک بازی عامل را بهبود می بخشد.

مقادیر Q-هدف نیز به صورت دوره ای به روز می شوند. این به‌روزرسانی‌ها به‌جای به‌روزرسانی مداوم و خطر بی‌ثباتی، پخش می‌شوند، که مسیر تدریجی‌تری را برای یادگیری که سازگار و پایدار است، تسهیل می‌کند.

به طور خلاصه، عامل DQN مسلماً یکی از مهم ترین بخش ها است، زیرا ارتباط بین کاوش و یادگیری را فراهم می کند. آن راه خود را در دنیای خانم پکمن مانور می دهد و از موفقیت و شکست خود برای تکامل استراتژی ها و تنظیم بیشتر Q-Network درس می گیرد. بسته به اقداماتی که عامل انجام می‌دهد و بازخوردی که دریافت می‌کند، از آن یاد می‌گیرد که بهتر از نسخه قدیمی در این محیط بازی کند.

۴٫۵٫ اجرا و نگهداری از حلقه آموزشی

دومی حلقه آموزشی را توصیف می کند – مرحله پویایی که در آن استراتژی RL اجرا می شود. در طول یک بازه از قسمت‌ها در این فرآیند تکراری، عامل DQN با محیط بازی Ms. PacMan تعامل می‌کند و تصمیم‌گیری می‌کند، بازخورد آن تصمیم‌ها را دریافت می‌کند، تجربیات مربوط به اقدامات انجام‌شده و پاداش‌ها را برای آن‌ها در حافظه Replay ذخیره می‌کند، و آن را بهبود می‌بخشد. استراتژی با استفاده از این تجربیات با به‌روزرسانی شبکه Q به صورت دسته‌ای از نمونه‌ای از تاپل‌های تجربه ذخیره‌شده نمونه‌برداری شده از توزیع یکنواخت روی تمام بافرهای حافظه. این بخش به پیچیدگی های حلقه آموزشی و نحوه عملکرد آن می پردازد.

این حلقه شامل اپیزودهای زیادی است که از ابتدا تا انتها در هر بازی کامل خانم PacMan یک قسمت وجود دارد. در ابتدای هر قسمت، حالت بازی ریست می شود و یک بازی جدید برای عامل شروع می شود. در طول یک اپیزود، این عامل وضعیت جدید خود را مشاهده می‌کند، اقدامی را انجام می‌دهد که بر اساس شکلی آرام از خط‌مشی حریصانه اپسیلونی خود تصمیم می‌گیرد که در زمان ارزیابی، بدون کمک‌های از دست دادن راهنمایی از حرکت‌هایی که قبلاً توصیه شده اما هنوز انجام نشده است، عادی می‌شود، همانطور که توسط فعال شده است. با اعمال تقویت معوق حرکت می کند و در نهایت آن توصیه (به تعویق افتاده) را در بازی ارائه می دهد. سپس محیط بازی به حالت بعدی تغییر می کند و بسته به اینکه عمل چقدر خوب انجام شده است، جایزه می دهد. اینها شامل انتقال حالت، اقدام انتخاب شده، پاداش دریافتی و وضعیت پایان بازی است که به عنوان یک تجربه در بافر Replay ذخیره می شوند.

وقتی تجربیات کافی جمع آوری شد، عامل Q-Network را با استفاده از دسته ای که به طور تصادفی از بافر Replay انتخاب شده است آموزش می دهد. این آموزش با تنظیم وزن های شبکه برای به حداقل رساندن تفاوت بین مقادیر Q پیش بینی شده و مقادیر Q هدف کار می کند. این روش مبتنی بر بازخورد تضمین می‌کند که نماینده استراتژی خود را در طول زمان تنظیم می‌کند تا عملکرد بهتری را به صورت افزایشی ارائه دهد.

یکی از بخش های مهم حلقه آموزشی این است که وزن ها را برای شبکه Q ذخیره می کنیم. این وزن ها ممکن است تکرارهای بی شماری را در طول عمر عامل ایجاد کنند، بنابراین باید به صورت دوره ای ذخیره شوند. به عنوان نقاط بازرسی که ذخیره می شوند، اینها اهداف مختلفی را انجام می دهند. اولی اجازه شکست را می دهد (اگر چیزهایی که به آنها وابسته هستید پایین بیایند، همچنان پیشرفت خواهید کرد). دوم، امکان ارزیابی نسبتاً سریع عامل را فراهم می کند و در نتیجه اجمالی اجمالی به پیشرفت یادگیری آن ارائه می دهد. در غیر این صورت، وزن‌های ذخیره‌شده را می‌توان برای انتقال یادگیری به کار مشابه دیگری یا تنظیم دقیق روی کارهای جدید استفاده کرد.

اساساً، حلقه آموزش همچنین جایی است که واکنش رفتاری عامل ما به این فرآیند یادگیری تدریجی مانند استراتژی بازی ظاهر می شود. این روند در چندین تکرار ادامه می یابد، زیرا عامل از طریق یادگیری تقویت شده از یک بازیکن تازه کار به یک بازیکن خبره خانم PacMan تبدیل می شود و در عین حال مطمئن می شود که درس های آموخته شده ثبت و ذخیره می شوند تا در ارزیابی های بعدی مورد استفاده قرار گیرند.

۴٫۶٫ ارزیابی عملکرد عامل

یک مرحله مهم پس از حلقه تمرین فشرده، ارزیابی عملکرد نماینده ما است. این ارزیابی نه تنها توانایی یک عامل در محیط Ms. PacMan، بلکه نقاط ضعف احتمالی را نیز بررسی می کند. پاسخگویی عامل با توجه به همان ویژگی هایی که با آنها اندازه گیری شده است ارزیابی می شود.

اولین مرحله در این ارزیابی، تغییر عامل به حالت صرفاً بهره‌برداری است، که شامل غیرفعال کردن ویژگی انتخاب عمل تصادفی (یعنی صفر کردن اپسیلون در خط‌مشی epsilon-greedy) است. این حالت عامل را وادار می کند که صرفاً به دانش اکتسابی خود وابسته باشد و اقداماتی را کاملاً بر اساس مقادیر Q ارائه شده توسط Q-Network انتخاب کند. این رویکرد نمایش دقیقی از یادگیری عامل و مهارت های کاربردی آن ارائه می دهد.

در این مرحله، عامل درگیر تعدادی اپیزود می‌شود که فرآیند آموزش را منعکس می‌کند، اما با دو تمایز کلیدی. اول، هیچ یادگیری یا تنظیم وزن Q-Network بر اساس اقدامات عامل وجود ندارد. دوم، سوابق دقیق از هر اقدام، انتقال وضعیت، و پاداش دریافت شده نگهداری می شود. شاخص اولیه عملکرد عامل، کل پاداش انباشته شده در هر قسمت است.

با این وجود، تکیه بر یک معیار واحد ممکن است به طور کامل توانایی های عامل را در بر نگیرد. به این ترتیب، معیارهای جایگزین در نظر گرفته می شود. اینها ممکن است تعداد سطوح تکمیل شده، میانگین مقدار ارواح خورده شده در هر قسمت یا تعداد دفعاتی باشد که میوه جایزه گرفته شده است. معیارهای اضافی تصویر دقیق تری از گیم پلی استراتژیک عامل ارائه می دهد. از آنجایی که این یک بازی تکراری با تصادفی و تصادفی در رفتار ارواح، و همچنین ظاهر میوه های مختلف روی صفحه است، بررسی عملکرد یک عامل در چندین قسمت مهم است. به عبارت دیگر، این میانگین ها معیار فرضی واقعی را تشکیل می دهند، که همچنین تمام نوسانات تصادفی را از بین می برد و معیاری از قابلیت های عامل واقعی را نشان می دهد.

مرحله ارزیابی همچنین از کمک های بصری برای کمک به تجزیه و تحلیل کمی استفاده می کند. نقشه‌های حرارتی از متداول‌ترین مسیرهای مامور، یا طرح‌هایی از مسیر انباشت پاداش در طول قسمت‌ها، می‌تواند برخی از نشانه‌های بصری کلیدی درباره تصمیم‌های استراتژیک اتخاذ شده توسط یک عامل ارائه دهد.

۴٫۷٫ تجسم بازی عامل

دیدن مدل در عمل به نشان دادن عملکرد عامل در بازی از طریق خانم PacMan با استفاده از RL کمک می کند. مانند تماشای بازی یک بازیکن انسانی در پیچ و خم، این تجسم داستانی جالب و جامع از استراتژی‌های عامل، چالش‌هایی که با آن مواجه می‌شود و پیشرفت‌های بالقوه ارائه می‌دهد. مامور از طریق تعاملات خود با اطرافیان خانم پکمن، داستانی را تعریف می‌کند، و فراتر از پیمایش ساده هزارتویی می‌رود و شامل عادات آموخته‌شده، ارزیابی تهدیدات و لحظات مهم تصمیم‌گیری می‌شود. تجزیه و تحلیل کامل و درک مسیر عامل از طریق این نمایش بصری تسهیل می شود.

برای این منظور، یک صفحه نمایش شبیه‌سازی شده برای ضبط گیم‌پلی واقعی در زمان واقعی توسط یک مامور – کل انچیلادا، از جمله هر مرحله، تجربه نزدیک به مرگ، و گلوله‌های قدرتی که جمع‌آوری شده‌اند، ایجاد شد. این کاتالوگ بصری به عنوان وسیله ای راحت و شهودی برای تأیید است که با آن شروع کنید. این به محققان، توسعه دهندگان، طرفداران و سایر ذینفعان اجازه می دهد تا نتایج فرآیند آموزش را به صورت پویا ببینند. این بینش مهمی را در مورد استراتژی ناوبری یک عامل ارائه می دهد: چقدر می تواند از شکاف های باریک عبور کند؟ آیا استفاده از گلوله های قدرت برای تعقیب ارواح استراتژیک است یا مهم ترین چیزی است که پیچ و خم کاملاً خالی است؟ هنگامی که به طور ناگهانی، میوه های پاداش ظاهر می شوند، چگونه واکنش نشان می دهد؟

این نمایش بصری همچنین به اشکال زدایی و تنظیم عامل کمک می کند. عجیب و غریب یا روند تصمیم گیری بد، که در شکل داده کاملاً قابل مشاهده نیستند، اکنون می توانند به راحتی از طریق این نسخه مختصر شناسایی شوند. این در نهایت به معنای تغییرات سریعتر و انعطاف پذیرتر است.

نتیجه‌گیری: آخرین اما نه کم‌اهمیت، این اقدامات به صورت بصری ضبط می‌شوند که دامنه وسیعی دارد. اقدامات را می توان به طور گسترده تری در جامعه ما به اشتراک گذاشت – در ارائه ها نشان داده شده یا در زمینه آموزشی برای کمک به نشان دادن اصول و شیوه های DRL استفاده می شود.

در نهایت، این به ما نشان می‌دهد که تجسم‌های ویدیویی از گیم‌پلی فقط برای اینکه عوامل ما (بیشتر DRL) کمتر سیاه‌باکس به نظر برسند، نیست، بلکه برای ارائه یک ابزار تشخیصی حیاتی برای اشکال‌زدایی و اصلاح عوامل و همچنین کمک به آموزش کاربران در مورد سیستم مورد استفاده است. مثال دیگر می تواند سطح خوبی از نمایش اقدامات ارائه شده توسط عامل، ارائه بازخورد مفید و نشان دادن چگونگی تعمیم DRL در محیطی مانند Ms. PacMan باشد.

۴٫۸٫ الگوریتم بهینه سازی پیشنهادی برای تنظیم فراپارامتر

در چارچوب پیشنهادی، ES تلفیقی از قدرت انرژی در SOA و توانایی تحمل دره انرژی در EVO است. برای انجام این کار، هدف ما استفاده از قدرت های این الگوریتم ها با تنظیم دقیق فراپارامترهایی است که در قلب مکانی که عامل DQN انجام می دهد، یعنی نرخ یادگیری (lr) و ضریب تخفیف (γ)، که بر روی آن تأثیر می گذارد. آینده نگری و عملکرد یادگیری عامل DQN ما.

Snake Optimization یک الگوریتم بهینه سازی هوشمند نسبتاً جدید است. توسط هاشم و همکاران بر اساس رفتار مارها به ویژه مدل های تغذیه، مبارزه و جفت گیری پیشنهاد شد. چیزی که این الگوریتم را از سایر الگوریتم های فراابتکاری متمایز می کند، شبیه سازی استراتژی های پیچیده بقای مارها است. در کار خود، اولا، SO جمعیت را به مردان و زنان مشخص می کند. ثانیاً با جمعیت های تصادفی شروع می شود و در نهایت در رفتار تغذیه و جفت گیری آنها با توجه به اهمیت دما برای حیوانات خونسرد مانند مارها تأثیر دما را مشخص می کند. مارها در دو فاز عمل می کنند. مرحله اول مرحله اکتشاف است، به این معنی که غذای کافی در محیط وجود ندارد. در این حالت، مارها به طور تصادفی به دنبال غذا می گردند. هنگامی که در دسترس بودن غذا کافی باشد، مرحله بهره برداری با رفتار مارها تعریف می شود، بنابراین رفتار جستجوی مارها کنترل می شود. به این دو مرحله اکتشاف و بهره‌برداری، بازنمایی‌های ریاضی داده می‌شود – معادلات خاصی برای موقعیت‌های نر و ماده برای هر یک از مراحل. چندین حالت و مکانیسم، مانند حالت های مبارزه و جفت گیری نیز مشخص می شود. با این حال، این مکانیسم‌ها توسط محیط، به‌ویژه دما، ایجاد می‌شوند، بنابراین الگوریتم را بسیار پیچیده‌تر و با درجه بهینه‌سازی بالاتری می‌سازد.

EVO بر اساس اصل فیزیک ذرات، عمدتاً رفتار ذرات زیر اتمی است. این بر اساس اصل پایداری و پوسیدگی ذره است. در جهان، بیشتر ذرات ناپایدار هستند، تمایل به انتشار انرژی و تبدیل به اشکال پایدارتر دارند. EVO بر اساس مفهوم “دره انرژی” است – یک حالت استعاری که در آن ذرات در پایدارترین شکل خود هستند و توسط سطوح بهینه نوترون (N) و پروتون (Z) محدود می شوند. در این حالت، ذرات سعی می کنند با تنظیم نسبت N/Z خود، نزدیک شدن به این دره انرژی یا باند پایداری، پایداری خود را افزایش دهند. این مفهوم برای پایداری ذرات سنگین‌تر، که به نسبت N/Z بالاتری برای پایداری آنها نیاز دارند، اساسی‌تر است. ایده این است که Energy Valley Optimization تمایلات طبیعی ذرات را تقلید می کند و از ایده پایداری و انتقال برای هدایت جستجوها برای راه حل های بهینه در فضای مشکل استفاده می کند. این یک الگوریتم جدید است که از ویژگی های اساسی فیزیک ذرات در بهینه سازی الگوریتمی استفاده می کند.

این الگوریتم زمانی شروع می شود که SOA جمعیتی از “مارها” را مقداردهی اولیه می کند، که هر کدام مجموعه ای از فراپارامترها را نقل می کنند. این مارها یک منظره استعاری مشابه عملکرد عامل DQN را تحت تنظیمات هایپرپارامترهای مختلف عرض می کنند. در همان زمان، EVO جمعیت جداگانه‌ای را وارد می‌کند که تحت ارزیابی قرار می‌گیرد، که به موجب آن این افراد در رابطه با عملکرد مدیریت شخصیت بازی ارزیابی می‌شوند. مرحله بعدی اکنون روش‌های SOA و EVO را ترکیب می‌کند، به این صورت که مارهای با بهترین عملکرد از SOA با افراد برتر جمعیت EVO ترکیب می‌شوند. بنابراین، این اجازه می دهد تا بهترین هایپرپارامترها به جمعیت دیگر پرش کنند. از این رو، متقاطع هایپرپارامترهای قوی تر، فرزندانی را ارائه می دهند که می توانند بهتر از پیشینیان باشند. این روی هر یک از جمعیت ها از طریق جهش اعمال می شود، از این رو آنها را متغیر می کند و امکان جستجوی گسترده در فضای فراپارامتر را فراهم می کند. همانطور که در طول نسل‌ها پیشرفت می‌کند، SOA و EVO با هم پیش می‌روند تا بهترین مجموعه ابرپارامترها را که در محیط Ms. PacMan برای عملکرد خوب امیدوارکننده هستند، به دست آورند. سپس، دوباره، این روند تا زمانی ادامه می یابد که نوعی معیار همگرایی برآورده شود، یا تا زمانی که به تعداد مشخصی از نسل ها برسد. عامل DQN با فراپارامترهای بهینه شده به دست آمده از این دو الگوریتم پیکربندی شده است. عامل اجازه دارد بازی را به درستی انجام دهد و عملکرد آن در بسیاری از قسمت ها ردیابی و بهینه سازی می شود.

برای تایید اثربخشی هایپرپارامترهای تنظیم شده توسط ESO، یک ارزیابی گسترده انجام شده است. این نه تنها شامل ارزیابی کمی از پاداش‌ها می‌شود، بلکه شامل تجزیه و تحلیل کیفی از طریق گیم‌پلی تجسم‌شده، ارائه بینش‌هایی درباره تصمیم‌گیری عامل و گیم‌پلی استراتژیک است. مراحل دقیق در الگوریتم ۱ نشان داده شده است.

الگوریتم ۱ Energy Serpent Optimizer (ESO)

ورودی: Environment env، اندازه جمعیت N، تعداد نسل G
خروجی: بهترین هایپرپارامترها: Lr*، ج*
جمعیت N مار را با تصادفی اولیه کنید Lr و γ برای هر مار برای نسل
این شروع حلقه اصلی است
ارزیابی تناسب اندام با استفاده از EVALUATE(env, Lrج)
مارها را بر اساس تناسب اندام به ترتیب نزولی برای i = 1 تا N/2 do مرتب کنید

–

این آغاز حلقه پرورش است
دو والدین p1، p2 را به طور تصادفی از میان مارهای برتر انتخاب کنید
کودک ← CROSSOVER (p1، p2)
جهش (کودک)
ارزیابی تناسب کودک در محیط
اگر آمادگی جسمانی کودک بالاتر است، مار کم تناسب را با کودک جایگزین کنید

–

این پایان حلقه پرورش است
در صورت لزوم نرخ جهش را بر اساس روند عملکرد تطبیق دهید

–

این پایان حلقه اصلی است
best_serpent ← مار با بالاترین تناسب اندام
Lr* ← best_serpent.lr
γ* ← best_serpent.gamma
برگشت Lr*، ج*

ESO که در شکل ۲ نشان داده شده است، یک الگوریتم تکاملی است که برای بهینه سازی نرخ یادگیری و ضریب تخفیف در مدل های RL طراحی شده است. ابتدا یک محیط مجازی ایجاد می کند که در آن جمعیتی از مارها وجود دارد و هر مار به روشی متفاوت به عنوان مجموعه ای منحصر به فرد از فراپارامترها در نظر گرفته می شود. در حالی که از یک نسل به نسل دیگر در حال اجرا است، یک مار برای فراپارامترهای خود در عملکرد خود در محیط مجموعه ارزیابی می شود، با توجه به اینکه عملکرد با توجه به پاداش های انباشته شده توسط عامل اندازه گیری می شود. سپس یک مار رتبه بندی می شود و برای تناسب اندام انتخاب می شود، به این معنی که کسانی که بهترین پیکربندی فراپارامترها را دارند، مناسب در نظر گرفته می شوند. چنین بهترین مارها از طریق یک روش پرورشی، تحت عملیات ژنتیکی اساسی متشکل از متقاطع و جهش قرار می گیرند. متقاطع زمانی است که هایپرپارامترهای دو مار والد اصلی با هم ادغام می شوند تا فرزندانی تشکیل دهند. جهش تغییرات تصادفی را در این فرزندان ایجاد می کند به گونه ای که تنوع قابل مشاهده است و به کشف فراپارامترهای موجود کمک می کند.

فرآیند ارزیابی، انتخاب، اصلاح نژاد و جهش در طول نسل‌ها انجام می‌شود که به تنظیم دقیق فراپارامترها کمک می‌کند. سپس این فرآیند سعی می‌کند تا مارهای کم‌تناسب را با فرزندانی جایگزین کند که نتایج امیدوارکننده‌ای دارند و با تکرار فرآیند تا رسیدن به فراپارامترهای بهینه، کل جمعیت را به جلو می‌برد. این الگوریتم تلاش می‌کند تا مارهای کم‌تناسب را با فرزندان امیدوارتر جایگزین کند و به تدریج کل جمعیت را در جستجوی ترکیب‌های فراپارامتر بهینه به جلو سوق دهد. این فرآیند یک فرآیند تصفیه شده جدید را به آموزش عوامل RL می دهد و آنها را آماده می کند تا با حداکثر کارایی در محیط های تصمیم گیری پیچیده کار کنند.

به طور خلاصه، رویکرد ESO تکراری ترکیبی برای تنظیم فراپارامتر، یک فرآیند جستجو و اکتشاف پویا است که به‌طور استراتژیک، پارامترهای مهم برای فرآیند یادگیری را به خوبی تغییر می‌دهد. این هم افزایی عامل DQN را با توجه به استراتژی بالا می برد و آن را در برخورد با خود هزارتوی خانم PacMan هوشمندتر یا ماهرتر می کند، همانطور که در شکل ۳ نشان داده شده است.

۶٫ بحث و مفاهیم

ESO تحقق یافته با تناسب اندام ترکیبی در یک بازی پیچیده پیچیده مبتنی بر محیط پیچ و خم غنی اطلاعات فشرده ای را در مورد استراتژی هوش مصنوعی تطبیقی، نقش و تاثیر در یک محیط پویا ارائه می دهد. مسیرهای پیچیده در پیچ و خم، همراه با بقیه عناصر بازی، بستری را برای عامل هوش مصنوعی ایجاد می‌کند تا فرآیند تصمیم‌گیری خود را در شرایط بسیار فشرده تنظیم کند که مستلزم فشار زمان و خطرات مختلف پراکنده در آن است. مسیر.

موفقیت ESO در تکامل فراپارامترها را می توان از توانایی حاصل از عامل برای برداشت امتیاز قابل توجهی در محدوده زمانی تعیین شده مشاهده کرد. این به نوبه خود نه تنها کارایی رویکرد مبتنی بر الگوریتم ژنتیک را تأیید می کند، بلکه اهمیت انتخاب و به روز رسانی مجموعه صحیح فراپارامترها را تأیید می کند. به طور جزئی، نرخ یادگیری و عامل تخفیف نقش حیاتی در تعریف منحنی یادگیری عامل و تسلط بر هنر به حداکثر رساندن پاداش و به حداقل رساندن خطرات دارند.

علاوه بر این، سفر عامل در سراسر پیچ و خم را می توان از نظر الگوهای رفتاری و تغییرات استراتژیک، همانطور که در شکل ۳ نشان داده شده است، تجزیه و تحلیل کرد. مسیر. ارتباط این تجسم را می توان از دو طریق بسیار مهم در نظر گرفت: یکی با توجه به نشان دادن چرایی اتخاذ رویکرد در رابطه با عامل، و دوم، دادن فضا برای بهبود رویکردها با توجه به نشان دادن زمینه های ممکن بهینه سازی بیشتر

علاوه بر این، امتیاز به‌دست‌آمده توسط عامل، ۱۱۰۰٫۰، یک معیار سنجش است که می‌توان آن را از نظر مقایسه با سایر مدل‌های RL یا تکنیک‌های بهینه‌سازی بیشتر تحلیل کرد. این معیار عملکرد یک نتیجه قوی از فرآیند تکاملی است که یک روش تجربی برای مقایسه پیکربندی‌های فراپارامتر مختلف ارائه می‌دهد.

پیامدهای یافته ها بسیار فراتر از محدوده عرصه بازی است. ابزارها و روش‌های مورد استفاده در اینجا را می‌توان به مجموعه‌ای از برنامه‌های کاربردی واقعی تعمیم داد که در آنها تصمیم‌گیری مستقل حیاتی است، مانند رباتیک، وسایل نقلیه خودمختار، و مدیریت سیستم‌های پیچیده. ویژگی بارز سیستم‌های هوش مصنوعی پیشرفته این است که می‌توانند در محیط‌های متغیر تکامل یابند و سازگار شوند و ESO برای این ویژگی مثال زدنی است.

در نتیجه، استفاده از ESO در یک محیط بازی مبتنی بر پیچ و خم در مورد ویژگی‌های عوامل هوش مصنوعی که در تنظیمات پیچیده و متغیر عمل می‌کنند بسیار آموزنده بوده است. این انطباق‌ها را نشان می‌دهد که در حال انجام و نشانه‌های کلی کنش هوشمند هستند، پیش‌نیازهایی برای سیستم‌های هوش مصنوعی پیشرفته که در چالش‌های چندگانه محیط مجازی و واقعی عمل می‌کنند.

استخراج ظرفیت‌های فردی هر دو SOA و EVO در یک محیط بازی پیچیده مبتنی بر پیچ و خم به ما کمک می‌کند تا استراتژی‌های بهینه‌سازی تطبیقی را در محیط‌های پویا و محدود درک کنیم. SOA در الهام بیولوژیکی خود سعی می کند تعادل استراتژیک بین اکتشاف و بهره برداری را حفظ کند، مشابه رفتار جستجوی ثابت مارها. این رویکرد به هوش مصنوعی اجازه می دهد تا از طریق درک شهودی فضا راهی در سراسر پیچ و خم پیدا کند، اما در صورتی که محیط دارای پیچیدگی بالاتر یا تغییرات شدید در پویایی بازی باشد، ممکن است در تصمیم گیری کمتر از حد مطلوب باشد.

با این حال، EVO از کمینه‌سازی سطح انرژی برای یافتن مسیرهای مناسب استفاده می‌کند و با کاهش مداوم سطوح انرژی بالقوه به روشی روشمند، خود را به عنوان یک رویکرد امیدوارکننده برای فرآیند ناوبری پیچ و خم شکل می‌دهد. با این حال، عملکرد آن می‌تواند به دلیل ماهیت گاه بیش از حد قطعی که همیشه امکان تطبیق کامل با ماهیت تصادفی موانع دینامیکی یا تغییر شرایط بازی را فراهم نمی‌کند، به خطر بیفتد.

اگرچه هم SOA و هم EVO پتانسیل قابل‌توجهی را در کاوش و تعامل با عناصر آن نشان می‌دهند، آنها نیز دارای محدودیت‌هایی هستند که به شایستگی کلی آنها در تضمین نمرات بالا در بازه‌های زمانی اختصاص داده شده مضر است. به سادگی، تعادل اکتشافی که SOA روی آن قرار دارد، همیشه به یک مسیر بهینه منجر نمی شود، به خصوص در پیچ و خم هایی با الگوهایی که بسیار نامنظم و غیرقابل پیش بینی هستند. همچنین، ماهیت قطعی EVO ممکن است انعطاف‌پذیری آن را در محیط‌های با تغییرات سریع یا بسیار تصادفی به خطر بیاندازد، در نتیجه منجر به استراتژی‌های غیربهینه می‌شود.

از سوی دیگر، با این حال، ESO یک راه حل قوی تر و سازگارتر است که نقاط قوت SOA و EVO را در بر می گیرد، در حالی که در عین حال با اجرای یک الگوریتم ژنتیک بر نقاط ضعف آنها غلبه می کند. با این قابلیت، ESO می‌تواند فراپارامترهای خود را تکامل دهد و فرآیندهای خود را در جهت تصمیم‌گیری توسط عامل هوش مصنوعی به شیوه‌ای سازگار و پاسخگو در برابر چالش‌های پیچیده ارتقا دهد. ESO عملکرد خود را با کسب امتیاز ۱۱۰۰٫۰ در بازی مبتنی بر پیچ و خم ثابت کرده است و چنین برتری بر اساس نرخ یادگیری تطبیقی بهتر، تنظیم ضریب تخفیف و انعطاف پذیری استراتژیک تر است. با آموختن از شکست‌های SOA و EVO، ESO برای حرکت در پیچ و خم با افزایش کارایی و اثربخشی مجهزتر بود، بنابراین کاربرد چنین استراتژی‌های بهینه‌سازی ترکیبی و تکامل‌یافته را در محیط‌های پیچیده و پویا نشان داد.

بنابراین، با چنین ارزشی در SOA و EVO برای بینش در مورد قابلیت بهینه‌سازی تنظیمات محدود، ESO یک رویکرد تطبیقی یکپارچه کاملا منحصر به فرد است که راه‌حل‌های عالی را برای سیستم‌های هوش مصنوعی بسیار پیشرفته، با استفاده از انطباق و یادگیری سریع در زمینه‌های غیرقابل پیش‌بینی و تنوع ارائه می‌دهد.

منبع: https://www.mdpi.com/2673-2688/5/3/57