تاریخچه یادگیری تقویتی
تاریخچه یادگیری تقویتی به سالها قبل برمیگردد و در طول زمان، تکاملهای بسیاری را تجربه کرده است. در زیر به خلاصهای از تاریخچه یادگیری تقویتی میپردازم:
دهه 1950: یادگیری تقویتی ریشههای خود را در رشته رفتار شناسی و روانشناسی را فراهم میکند. نظریه دستورانت اثر انتظار (Expectancy Theory) توسط Edward Tolman و نظریه پادازانگاری (Reinforcement Theory) توسط B.F. Skinner از جمله مفاهیم اولیه در این زمینه است.
دهه 1970: ابتدای دهه 1970، Richard Sutton به شکل خاص تئوری یادگیری تقویتی را توسعه داد. وی الگوریتم Q-learning را معرفی کرد که به عامل یاد میدهد بهترین اقدام برای هر وضعیت را انتخاب کند.
دهه 1980: در این دهه، مفهوم سیاست و تابع ارزش و انتظار کوتاهمدت معرفی شد. ایدههایی مانند سیاست غلبه بر حالت (Policy Domination) و سیاستی که اقدامات با انتظار بیشینه را تعیین میکند (Optimism in the Face of Uncertainty) به این دهه تعلق دارند.
دهه 1990: در این دهه، بررسی و استفاده از تابع ارزش در محیطهای پویا و غیرقطعی مورد توجه قرار گرفت. همچنین الگوریتمهای Actor-Critic نیز در این دهه معرفی شدند.
دهه 2000: در این دهه، الگوریتمهای تقویتی مبتنی بر تقریب تابعی (Function Approximation)، مانند الگوریتمهای Q-Learning مبتنی بر شبکههای عصبی، مطرح شدند. تکنیکهایی مانند خوشهبندی عمل (Action Clustering) و تخمین تابع ارزش (Value Function Approximation) نیز در این دهه توسعه یافت.
دهه 2010: در این دوره، الگوریتمهایی مانند A3C و DQN با استفاده از شبکههای عصبی عمیق (Deep Neural Networks) جهت بهبود عملکرد یادگیری تقویتی پیشرفت زیادی کردند. همچنین روشهای تقریب تابع سازی (Function Approximation) نیز بسیار پر استفاده شدند.e learning- deep learning - reinforcement learning- regularization- classification intro- logistic regression- SVM-kernel- neural net- baysian c
+ نوشته شده در شنبه ۱۵ اردیبهشت ۱۴۰۳ساعت 23:19  توسط سيد مصطفي محمدزاده
|