基于多智能体强化学习的轨道追逃博弈方法

许旭升; 党朝辉; 宋斌; 袁秋帆; 肖余之

引用本文:	许旭升,党朝辉,宋斌,袁秋帆,肖余之.基于多智能体强化学习的轨道追逃博弈方法[J].上海航天,2022,39(2):24-31.

【打印本页】【下载PDF全文】【】

本文已被：浏览 827次下载 1254次

分享到：微信更多

字体:加大+|默认|缩小-

基于多智能体强化学习的轨道追逃博弈方法

许旭升¹,党朝辉²,宋斌¹,袁秋帆¹,肖余之¹

1.上海宇航系统工程研究所，上海201109;2.西北工业大学航天学院，陕西西安710109

摘要:

针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知，以及卫星间难以有效协调等问题，提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模，在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进，利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练，得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈，且能够利用数量优势有效地弥补速度劣势，涌现出“围捕”“拦截”“合作”“潜伏”等一系列智能博弈行为，有效地实现了博弈目的。

(1.Shanghai Institute of Aerospace Systems Engineering， Shanghai 201109， China;2.school of Astronautics， Northwestern Polytechnical University， Xi’an 710109， Shaanxi， China)