امروز اندرو بارتو و ریچارد ساتون به عنوان برندگان جایزه تورینگ معرفی شدن؛ جایزهای که به عنوان نوبل کامپیوتر شناخته میشه. هر دوی اونها دههها است که روی یادگیری تقویتی کار کردن؛ حوزهای که بسیاری از هوش مصنوعیهایی که اطرافمون میبینیم ازش بهره میبرن. از ماشینهای خودران گرفته تا رباتها و برنامههای شطرنج و تحلیل بازار. توی این ویدئو به این بهانه سعی میکنم مفهوم کلی یادگیری تقویتی رو توضیح بدم، منابعی برای شروعش معرفی کنم و در نهایت کمی هم دست به کد بشیم تا فرصتی بشه برای شروع استفاده از کتابخونههاش توی پایتون. کتابخونه مورد استفاده Gymnasium از OpenAI است.