您当前所在的位置:首页  新闻动态

“智能工程”创客论坛第十八期:强化学习讲堂第三讲顺利开讲

2019年521日晚,智能工程创客论坛:强化学习讲堂第三讲在南京大学仙林校区基础实验楼乙区408顺利举办。本期讲座邀请的是工程管理学院研究生谢东瀚,讲座主题为动态规划和蒙特卡罗算法


谢东瀚同学在本科生期间获授权发明专利一项,现研究方向为:强化学习在智能交通中的应用。

讲座中,谢东瀚同学详细讲解了强化学习的基本概念。首先,介绍了马尔可夫,具体讲解了马尔可夫性、马尔可夫过程、马尔可夫奖励过程和马尔可夫决策过程,介绍了一个重要的贝尔曼方程,讲了一些重要的公式和方法;接着又介绍了动态规划,简要讲解了策略评估、策略迭代和值迭代,详细讲述了一些思想和公式的证明;最后又介绍了蒙特卡罗方法,讲了蒙特卡罗强化学习和蒙特卡罗预测两个方面,讲述了First-visitEvery-visit的区别。

在整个讲座过程中,谢东瀚同学通过生活中小例子,深入浅出讲解各类方法、算法的内涵和证明过程,方便同学们的理解,也提高了同学们对强化学习的学习兴趣。