2019年5月21日晚,“智能工程”创客论坛:强化学习讲堂第三讲在南京大学仙林校区基础实验楼乙区408顺利举办。本期讲座邀请的是工程管理学院研究生谢东瀚,讲座主题为“动态规划和蒙特卡罗算法”。
谢东瀚同学在本科生期间获授权发明专利一项,现研究方向为:强化学习在智能交通中的应用。
讲座中,谢东瀚同学详细讲解了强化学习的基本概念。首先,介绍了马尔可夫,具体讲解了马尔可夫性、马尔可夫过程、马尔可夫奖励过程和马尔可夫决策过程,介绍了一个重要的贝尔曼方程,讲了一些重要的公式和方法;接着又介绍了动态规划,简要讲解了策略评估、策略迭代和值迭代,详细讲述了一些思想和公式的证明;最后又介绍了蒙特卡罗方法,讲了蒙特卡罗强化学习和蒙特卡罗预测两个方面,讲述了First-visit和Every-visit的区别。
在整个讲座过程中,谢东瀚同学通过生活中小例子,深入浅出讲解各类方法、算法的内涵和证明过程,方便同学们的理解,也提高了同学们对强化学习的学习兴趣。