"智能工程"创客论坛第二十三期：强化学习讲堂第六讲顺利开讲

019年11月28日星期四晚，“智能工程”创客论坛之强化学习讲堂第六讲：强化学习中的函数逼近在南大基础实验楼乙区408顺利开展。此次活动由南京大学创新创业与成果转化工作办公室指导，南京大学机器人协会协助，南京大学工程管理学院和江苏省系统工程学会承办。

主讲人为南大工程管理学院研究生朱远洋同学，他的主要研究方向是强化学习，机器人导航。首先，朱远洋同学介绍了强化学习方法的分类，进而引出值函数逼近的方法。随后就介绍了该方法产生的背景和具体介绍：函数逼近用来解决状态空间复杂的马尔可夫性问题，在规模较大的空间或者连续空间中具有良好的求解方式。

随之介绍了函数逼近的增量算法。首先是梯度算法，利用随机梯度下降方法找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快。因为梯度的方向就是函数之变化最快的方向。所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值。其次还讲了线性值函数逼近、表格检索特征、增量评价式算法、值函数逼近下的MC、TD等。

最后还简单介绍了一下神经网络：神经网络是由一系列神经网络单元和相关激活函数组成的网络。其中激活函数是用来分隔不同的神经网络层，使其不再是简单的线性组合加偏置量。然后神经网络最核心的技术就是反向传播：利用前向传播的结果进行反向推算不断更新前面神经单元的权重值。

在课程最后，朱远洋同学还留下来细心回答同学们的问题，在相关问题上还进行了适当的拓展。同学们在此次小课堂中都有满满的收获。