“智能工程”创客论坛第十八期：强化学习讲堂第三讲顺利开讲

2019年5月21日晚，“智能工程”创客论坛：强化学习讲堂第三讲在南京大学仙林校区基础实验楼乙区408顺利举办。本期讲座邀请的是工程管理学院研究生谢东瀚，讲座主题为“动态规划和蒙特卡罗算法”。

谢东瀚同学在本科生期间获授权发明专利一项，现研究方向为:强化学习在智能交通中的应用。

讲座中，谢东瀚同学详细讲解了强化学习的基本概念。首先，介绍了马尔可夫，具体讲解了马尔可夫性、马尔可夫过程、马尔可夫奖励过程和马尔可夫决策过程，介绍了一个重要的贝尔曼方程，讲了一些重要的公式和方法；接着又介绍了动态规划，简要讲解了策略评估、策略迭代和值迭代，详细讲述了一些思想和公式的证明；最后又介绍了蒙特卡罗方法，讲了蒙特卡罗强化学习和蒙特卡罗预测两个方面，讲述了First-visit和Every-visit的区别。

在整个讲座过程中，谢东瀚同学通过生活中小例子，深入浅出讲解各类方法、算法的内涵和证明过程，方便同学们的理解，也提高了同学们对强化学习的学习兴趣。