报告题目【应用于捕食者模型的团体Q学习】
时间:2019年7月22日(星期一)上午11:10
地点:旗山校区数信大楼507学术报告厅
主讲:北京大学信息科学技术学院博士,张明悦
主办:数学与信息学院,数字福建环境监测物联网实验室
参加对象:感兴趣的老师、研究生、部分本科生
报告摘要:在许多单智能体决策任务上,强化学习达到甚至超过了人类水平,而在多智能体领域遇到了许多困难与挑战。提出了一种多智能体学习算法,基于随机博弈的框架,用Q学习进行状态-动作价值估计,根据价值函数进行简化后的均衡计算,以保证学习算法可以逼近马尔可夫完美均衡(MPE)。将该算法应用于捕食者模型(predator-prey model),并进行实证研究,观察在学习算法下,捕食者、被捕食者群体的行为模式,并对其种群数量的动态变化进行统计。最后,探讨总结相关的多智能体强化学习算法。
报告人简介:张明悦,高可信软件技术教育部重点实验室和北京大学信息科学技术学院博士,目前的主要研究方向为多智能体系统及相关算法与技术,重点关注多智能体强化学习算法(MARL),对自适应系统,强化学习,博弈论感兴趣。