第9课-策略梯度方法(Part3-该方法的目标函数2-Average reward)【强化学习的数学原理】

第9课-策略梯度方法(Part3-该方法的目标函数2-Average reward)【强化学习的数学原理】

WINDY Lab

1 год назад

513 Просмотров

欢迎大家来到西湖大学赵世钰老师的【强化学习的数学原理】课程。这门课程从零开始、从数学角度、结合大量例子、循序渐进地揭示强化学习的本质原理。如果你学习的时候喜欢刨根问底“知其然并知其所以然”,那么这个课程能很好地帮助你透彻理解强化学习!几点说明:1)我们制作了软字幕,欢迎大家打开字幕。2)PPT为英文,因为对应的线下课程和书籍都是英文。PPT背景颜色设置为护眼灰。3)课程介绍网址:https://zhuanlan.zhihu.com/p/567743051 书和PPT下载网址:https://github.com/MathFoundationRL
Ссылки и html тэги не поддерживаются


Комментарии: