您当前所在的位置:首页  新闻动态

"智能工程"创客论坛第二十三期:强化学习讲堂第六讲顺利开讲

019年1128日星期四晚,“智能工程”创客论坛之强化学习讲堂第六讲:强化学习中的函数逼近在南大基础实验楼乙区408顺利开展。此次活动由南京大学创新创业与成果转化工作办公室指导,南京大学机器人协会协助,南京大学工程管理学院和江苏省系统工程学会承办。

主讲人为南大工程管理学院研究生朱远洋同学,他的主要研究方向是强化学习,机器人导航。首先,朱远洋同学介绍了强化学习方法的分类,进而引出值函数逼近的方法。随后就介绍了该方法产生的背景和具体介绍:函数逼近用来解决状态空间复杂的马尔可夫性问题,在规模较大的空间或者连续空间中具有良好的求解方式。

随之介绍了函数逼近的增量算法。首先是梯度算法,利用随机梯度下降方法找到给定点的梯度,然后朝着梯度相反的方向,就能让函数值下降的最快。因为梯度的方向就是函数之变化最快的方向。所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值。其次还讲了线性值函数逼近、表格检索特征、增量评价式算法、值函数逼近下的MCTD等。

最后还简单介绍了一下神经网络:神经网络是由一系列神经网络单元和相关激活函数组成的网络。其中激活函数是用来分隔不同的神经网络层,使其不再是简单的线性组合加偏置量。然后神经网络最核心的技术就是反向传播:利用前向传播的结果进行反向推算不断更新前面神经单元的权重值。

在课程最后,朱远洋同学还留下来细心回答同学们的问题,在相关问题上还进行了适当的拓展。同学们在此次小课堂中都有满满的收获。