航天器轨道追逃博弈多阶段强化学习训练方法

袁利; 耿远卓; 汤亮; 黄煌

引用本文:	袁利,耿远卓,汤亮,黄煌.航天器轨道追逃博弈多阶段强化学习训练方法[J].上海航天,2022,39(4):33-41.

【打印本页】【下载PDF全文】【】

本文已被：浏览 709次下载 589次

分享到：微信更多

字体:加大+|默认|缩小-

航天器轨道追逃博弈多阶段强化学习训练方法

袁利^1,2,耿远卓^1,2,汤亮^1,2,黄煌^1,2

1.北京控制工程研究所，北京 100094;2.空间智能控制技术重点实验室，北京 100094

摘要:

针对航天器轨道追逃博弈问题，提出一种多阶段学习训练赋能方法，使得追踪星在终端时刻抵近逃逸星的特定区域，而逃逸星需要通过轨道机动规避追踪星。首先，构建两星的训练策略集，基于逻辑规则设计追踪星和逃逸星的机动策略，通过实时预测对方的终端位置，设计己方的期望位置和脉冲策略，显式给出追逃策略的解析表达式，用于训练赋能;其次，为提升航天器的训练赋能效率及应对未知环境的博弈能力，提出一种基于强化学习技术多模式、分阶段的学习训练方法，先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星，完成预训练;再次，开展二次训练，两星都采用邻近策略优化(PPO)策略进行追逃博弈，在博弈中不断调整网络权值，提升决策能力;最后，在仿真环境中验证提出的训练方法的有效性，经过二次训练后，追踪星和逃逸星可有效应对不同策略驱动下的对手，提升追逃成功率。

(1.Beijing Institute of Control Engineering， Beijing 100094， China;2.Science and Technology on Space Intelligent Control Laboratory， Beijing 100094， China)