تاریخچه یادگیری تقویتی

تاریخچه یادگیری تقویتی به سال‌ها قبل برمی‌گردد و در طول زمان، تکامل‌های بسیاری را تجربه کرده است. در زیر به خلاصه‌ای از تاریخچه یادگیری تقویتی می‌پردازم:

دهه 1950: یادگیری تقویتی ریشه‌های خود را در رشته رفتار شناسی و روانشناسی را فراهم می‌کند. نظریه دستورانت اثر انتظار (Expectancy Theory) توسط Edward Tolman و نظریه پادازانگاری (Reinforcement Theory) توسط B.F. Skinner از جمله مفاهیم اولیه در این زمینه است.

دهه 1970: ابتدای دهه 1970، Richard Sutton به شکل خاص تئوری یادگیری تقویتی را توسعه داد. وی الگوریتم Q-learning را معرفی کرد که به عامل یاد می‌دهد بهترین اقدام برای هر وضعیت را انتخاب کند.

دهه 1980: در این دهه، مفهوم سیاست و تابع ارزش و انتظار کوتاه‌مدت معرفی شد. ایده‌هایی مانند سیاست غلبه بر حالت (Policy Domination) و سیاستی که اقدامات با انتظار بیشینه را تعیین می‌کند (Optimism in the Face of Uncertainty) به این دهه تعلق دارند.

دهه 1990: در این دهه، بررسی و استفاده از تابع ارزش در محیط‌های پویا و غیرقطعی مورد توجه قرار گرفت. همچنین الگوریتم‌های Actor-Critic نیز در این دهه معرفی شدند.

دهه 2000: در این دهه، الگوریتم‌های تقویتی مبتنی بر تقریب تابعی (Function Approximation)، مانند الگوریتم‌های Q-Learning مبتنی بر شبکه‌های عصبی، مطرح شدند. تکنیک‌هایی مانند خوشه‌بندی عمل (Action Clustering) و تخمین تابع ارزش (Value Function Approximation) نیز در این دهه توسعه یافت.

دهه 2010: در این دوره، الگوریتم‌هایی مانند A3C و DQN با استفاده از شبکه‌های عصبی عمیق (Deep Neural Networks) جهت بهبود عملکرد یادگیری تقویتی پیشرفت زیادی کردند. همچنین روش‌های تقریب تابع سازی (Function Approximation) نیز بسیار پر استفاده شدند.e learning- deep learning - reinforcement learning- regularization- classification intro- logistic regression- SVM-kernel- neural net- baysian c

+ نوشته شده در  شنبه ۱۵ اردیبهشت ۱۴۰۳ساعت 23:19  توسط سيد مصطفي محمدزاده   |