一种基于人工势场的多航天器轨道博弈方法
doi: 10.19328/j.cnki.2096‐8655.2026.01.014
李子晗 1 , 卢山 1, 2 , 侯月阳 1, 2 , 刘春阳 1
1. 上海航天控制技术研究所,上海 201109
2. 上海市空间智能控制技术重点实验室,上海 201109
基金项目: 国家自然科学基金资助项目(62373189)
An Artificial Potential Field-based Method for Multi-spacecraft Orbital Games
LI Zihan 1 , LU Shan 1, 2 , HOU Yueyang 1, 2 , LIU Chunyang 1
1. Shanghai Aerospace Control Technology Institute, Shanghai 201109, China
2. Shanghai Key Laboratory of Aerospace Intelligent Control Technology, Shanghai 201109, China
摘要
针对近地轨道(LEO)空间中的多航天器轨道博弈问题,提出了一种基于人工势场的博弈方法。首先,博弈双方均采用势函数策略进行博弈,针对逃逸器设计基于多源斥力场和速度保持势的综合规避算法,采用追踪器设计预测势场与协同斥力场结合的分布式包围策略;然后其逃逸器策略不变,为追踪器设计融合比例导引(PNG)的增强型接近策略,强化末段追击精度。仿真验证表明:势函数法可实现多追踪器对逃逸器的初步包围,但因缺乏末段指向性导致“飞越”,未能捕获逃逸器;增强型追击策略可以提高追踪器末端接近能力,使得追踪器在 1236 s 成功捕获逃逸器。
Abstract
To address the multi-spacecraft orbital game problem in low Earth orbit (LEO),an artificial potential field (APF)-based approach for games is proposed. First,both the game players adopt potential-field strategies:the evader implements a composite avoidance algorithm that integrates multi-source repulsive fields and a velocity-retention potential,while the pursuers implement a distributed encirclement strategy combining predictive potential fields with inter-pursuer repulsive forces.Second,while the evader’s strategy remains unchanged,an enhanced terminal strategy integrating proportional navigation guidance (PNG)is designed for the pursuers to improve the endgame accuracy.The simulation results indicate that the potential-field method enables the pursuers to achieve preliminary encirclement of the evader;however,due to a lack of terminal directivity,capture is not achieved,and the pursuers experience a flyby.In contrast,the enhanced pursuit strategy significantly improves the terminal approach performance,allowing the pursuers to successfully capture the evader at 1 236 s
0 引言
近年来,近地轨道(Low Earth Orbit,LEO)作为太空资源开发与航天任务实施的核心区域,其资源竞争与空间拥挤态势日益加剧,轨道碰撞风险与非合作目标处置需求同步攀升[1-3]。在此背景下,航天器任务场景已从传统的空间碎片清除、失效卫星回收等非对抗性操作,逐步拓展至具备自主机动能力的对抗性博弈场景,此类场景中,追踪器 P(Pursuer)和逃逸器 E(Evader)的动态策略博弈及多智能体协同决策,已成为制约任务成功率的重要瓶颈,构建适配多航天器博弈场景的高效制导方法十分重要[4-5]
人工势场法(Artificial Potential Field,APF)作为一种经典的路径规划方法,已被广泛应用于无人机、无人车、机器人的避障与路径规划。CHEN 等[6]通过坡度势能改进势函数,提升了四足机器人在复杂山地环境的地形适应与路径规划能力;鲜斌等[7]将模型预测控制与 APF 融合,解决了多无人机在动态障碍物场景下的航迹协同问题;范世鹏等[8]采用连续可微对数函数构造势场,有效消除了传统方法易陷入的局部极小值陷阱;文献[9-10]则分别针对水下机器人编队控制与欠驱动无人船协同避碰场景,通过势函数与约束条件的结合优化控制律设计;文献[11-15]进一步围绕动态环境适配、复杂地形适应等需求,提出了多类势场改进方案。研究方向拓展到航天器领域,刘冰雁等[16]结合 Frenet 坐标系改进势场函数,解决了航天器静态规避中的轨迹偏离问题;高鹏等[17]通过引入修正项优化人工势函数制导,实现了追踪航天器对动态障碍物的规避;周昊等[18]针对信息不完全场景,设计了基于几何势场的控制律,提升了避障鲁棒性。但上述方法聚焦于航天器的静态避障任务,未涉及多航天器动态博弈决策。
在制导方法领域,比例导引(Proportional Navigation Guidance,PNG)作为经典拦截制导技术,其通过控制加速度与视线角速度的关联实现“视线锁定”,在航空器、导弹、鱼雷等对抗性场景中应用广泛[19-20]。唐进等[21]指出,PNG 是近程拦截任务的基础制导律,其衍生的增强型算法已成为多约束制导的重要框架。黄波等[22]基于 PNG 开展鱼雷声自导弹道仿真,验证了其对机动目标的快速逼近能力;穆宝明等[23]将模糊控制与 PNG 结合,设计鱼雷自导组合导引律,提升了复杂水声环境下的拦截鲁棒性。针对多目标场景,郭征等[24]提出考虑攻击时间与区域封控的协同导引方法,实现了多导弹对目标的同步拦截;李健等[25]基于变幂次滑模设计固定时间多导弹导引律,解决了多智能体时间一致性与拦截精度的平衡问题。然而,传统 PNG 及衍生算法的局限在于“单对单”指向性优化[26],并且导弹等航空器具备高机动速度,将制导方法直接应用于航天器轨道博弈场景仍需适配性修正。
航天器轨道博弈问题区别于地面、低空平台,需在轨道动力学约束下,实现多智能体的动态策略优化。在智能算法方向,王英杰等[27]针对信息不完备场景,提出基于强化学习的多航天器轨道博弈方法;许旭升等[28]则通过多智能体强化学习优化轨道追逃策略,通过算法优化提升了策略的协同性;LI 等[29]针对机动目标,设计了固定时间协同制导律,确保了收敛时间的上限约束;李尚恒等[30]基于强化学习的任务分配研究,分别从时序优化和资源调度层面深化了多智能体博弈的理论框架;在非航天领域的多智能体协同方法[31-33],对解决航天器协同围捕问题具有重要的参考价值。但是上述大模型训练方法需大量在轨数据支撑,实时性与工程适用性仍需验证[34]
综上所述,APF 在多智能体协同包围与避障中具备天然优势,但应用于动态对抗场景较少;各种制导方法虽能保障拦截精度,但在实现多航天器的协同决策上还需验证。为此,本文针对 LEO 多航天器追逃博弈问题,采用势函数法并结合制导律方法,以期实现多追踪器对逃逸器的协同捕获,为航天器对非合作目标的在轨交会抵近提供参考。
1 基本原理
1.1 坐标系与运动方程
1)地心惯性(Earth Centered Inertial Coordinate System,ECI)坐标系:以地心为原点,基本面为平赤道平面,z 轴沿着地球自转轴指向地球北极,x 轴与 y 轴垂直并位于赤道平面内,x 轴指向春分点,三轴构成右手正交坐标系(OXYZ)。
2)第一轨道坐标系,也称 LVLH(Local Vertical Local Horizontal)坐标系:以航天器质心为原点,x 轴沿着地心指向航天器质心方向,z轴沿着航天器轨道面的法向,y轴沿着航天器迹向,三轴构成右手正交坐标系(oxyz),惯性系和轨道系如图 1所示。
1 惯性系和轨道系
Fig. 1 ECI and LVLH coordinate systems
假设参考轨道为圆轨道,忽略地球高阶摄动项,通过泰勒展开化简得到基于 Clohessy-Wiltshire方程(C-W 方程)建立的空间飞行器相对运动模型:
{x¨2ωy˙3ω2x=axy¨+2ωx˙=ayz¨+ω2z=az
(1)
式中:(xyz)∈ R3 为航天器在目标航天器轨道坐标系中的三维位置;(x˙,y˙,z˙) 为航天器在目标航天器轨道坐标系中的速度矢量;ω=μ/R3 为轨道角速度,μ 为地球引力常数;ai 为控制加速度的各轴分量。
该式在圆轨道或近圆轨道、航天器之间相对距离较小的情况下,计算精度可以满足绝大部分动力学要求。航天器相对状态量为 X=(x,y,z,x˙,y˙,z˙)T,控制加速度为 U=(axayaz)T,航天器相对运动状态空间表达式为
X˙=AX+BU
(2)
A=[0001000000100000013ω20002ω00002ω0000ω2000]
(3)
B=[000000000100010001]
(4)
式中:A 为状态矩阵;B 为输入矩阵。
采用龙格-库塔法进行积分求解:
{k1=AXk+BUkk2=A(Xk+0.5tk1)+BUkk3=A(Xk+0.5tk2)+BUkk4=A(Xk+tk3)+BUkXk+1=Xk+t6(k1+2k2+2k3+k4)
(5)
式中:Xk + 1Xk 分别为第 k+ 1、k 时刻的状态向量;Uk 为第 k 时刻的航天器控制加速度。
1.2 APF 原理
APF 的基本思想是在障碍物周围建立斥力场,在目标点(到达点)周围建立引力场,被控对象在复合势场中搜索无碰撞路径。
1)引力势场
引力势场与被控对象、目标点的距离有关,距离越大,被控对象的势能值越大,引力势场函数为
Ug(r)=12kgr1rgoal 2
(6)
对应引力为势场的负梯度,方向从被控对象指向目标点:
Fg=Ug=kg(rgoal r1)
(7)
式中:k g 为引力常数;r 1 为被控对象的位置矢量;r goal为设置的引力点位置矢量;Ug 为引力势函数;Fg 为被控对象所受引力。
2)斥力势场
当被控对象未进入障碍物影响范围时,斥力为零,当被控对象进入障碍物影响范围后,距离越小,斥力势能值越大,斥力势场函数为
Ur(r)={12kr(1ρ1ρ0)2eγρ,ρρ00,ρ>ρ0
(8)
对应斥力为势场的负梯度,斥力方向为障碍物指向被控对象:
Fr=Ur=kr(1ρ1ρ0)(r2robs )ρ3eγρ
(9)
式中:Ur 为斥力势场函数;Fr 为被控对象所受斥力;kr 为斥力常数;ρ 为航天器与障碍物之间的距离差;ρ0 为障碍物的影响半径;r 2 为航天器的位置矢量;r obs 为障碍物的位置矢量;γ 为斥力衰减因子[16]
3)此时合力势场为
Utotal (r)=Ug(r)+Ur(r)
(10)
Ftotal =Fg+Fr
(11)
然而,这种 APF 极易陷入局部最优[7-8],所以加入虚拟扰动力场 Fvirt:当检测到合力 F total < ε 时加入虚拟力:
Fvirt=ηrand(3,1)
(12)
式中:η 为扰动幅值系数;rand()为随机函数。
因此总合力为
Ftotal =Fg+Fr+Fvirt
(13)
1.3 仿真
基于一般性 APF 原理,进行三维避障仿真。设定起始点(0,0,0)与目标点(100,100,80),在 2 点连线周围随机生成 10 个障碍物,引力常数 k g 取 10,斥力常数 kr 取 8,斥力衰减因子 γ 取 0.001,扰动幅值系数 η 取 0.1,障碍物影响范围 ρ0 取 35,碰撞半径取 2。得到避障结果如图 2 所示,被控对象可以通过静态障碍区,到达目标点。
2 三维 APF 静态避障
Fig. 2 3D APF static obstacle avoidance
2 多星追逃博弈控制策略设计
设定 3 颗追踪器围捕 1 颗逃逸器的场景,航天器通过持续的推力输出完成轨道调整,不考虑燃料续航限制,在 400 km 轨道上取一个虚拟航天器作为轨道坐标系的原点,然后在该相对坐标系下给出航天器的初始状态信息:Xe=[ r eve ]TXpi=[ r pivpi]T,(i = 1,2,3)。相对状态信息如图 3所示。
3 相对状态信息
Fig. 3 Relative state information
博弈控制目标:追踪器通过协同策略缩小与逃逸器的相对距离,直至满足捕获条件,同时避免追踪器之间发生碰撞;逃逸器基于规避策略突破包围,尽可能延长被捕获时间或避免被捕获。
2.1 追踪器势函数法策略设计
1)引力势场:以逃逸器为引力点,同时引入超前控制量预测逃逸器机动位置,避免传统 APF 的滞后问题。任一追踪器受到逃逸器的当前引力势场为
Ug(p)=12kgrerp
(14)
式中:r e 为逃逸器当前位置;r p 为追踪器当前位置。
引力为
Fg(p)=kg(rerp)
(15)
追踪器基于逃逸器的当前状态预测其未来一定时间 tpred 后的位置,增加超前控制量:
re,pred=re+vetpred
(16)
式中:r e,pred 为逃逸器的预测位置;ve 为逃逸器当前速度。
预测点的势场为
Ug, pred (p)=12kgre, pred rp
(17)
只考虑当前位置会使追踪器在末端追不上逃逸器,只考虑预测量又使得追踪器过于前置,因此将追踪器的合力考虑为当前量和预测量的结合:
Fg(p)=(Ug(p)+Ug, pred (p))=kg[(rerp)+(re, pred rp)]
(18)
2)斥力势场:以其他追踪器为斥力源,保持追踪器的协同包围态势,避免碰撞,斥力势场为
Ur(p)=mi12krp(1rpirpm1Rp)2
(19)
斥力为
Fr(p)=Ur(p)=mikrp(1rpirpm1Rp)(rpirpm)rpirpm3
(20)
式中:krp 为追踪器之间的斥力系数;Rp 为追踪器之间的斥力影响范围;r pi 为当前追踪器位置;r pm 为其他追踪器位置。
故追踪器采取 APF 的总合力为
Ftotal, p=Fg(p)+Fr(p)
(21)
综合加速度为
ap=Ftotal, pFtotal, pamax,p
(22)
式中:Ftotal,p 为追踪器所受合力;amax,p 为追踪器最大加速度。
2.2 逃逸器势函数法策略设计
在势场函数影响范围内,每个追踪器对逃逸器产生斥力,斥力幅值随相对距离减小而增大:
Ur(e)=i=1312kre[1rerpi1Re]2
(23)
Fr(e)=Ur(e)=i=13kre[1rerpi1Re](rerpi)rerpi3
(24)
式中:kre 为追踪器对逃逸器的斥力系数;Re 为追踪器对逃逸器的斥力影响范围;r e 为逃逸器的位置矢量;r pi为追踪器的位置矢量。
针对航天器轨道动力学特性,为逃逸器新增速度保持势以避免速度失稳:
Uv(e)=12kvve(n)ve(n1)2
(25)
Fv(e)=kv[ve(n)ve(n1)]
(26)
式中:k v 为逃逸器速度势系数;ve(n)为当前时刻逃逸器速度;ve(n-1)为上一时刻逃逸器速度。
由于势函数法容易陷入局部最优,因此需要加入虚拟力改进这一情况,当检测到合力 F total < ε 时加入随机力[35]突破局部最优:
Fvirt=kdrand (3,1)
(27)
式中:k d 为扰动力系数。
故逃逸器的总控制力为
Ftotal, e=Fr(e)+Fv(e)+Fvirt (e)
(28)
进而得到逃逸器的加速度:
ae=Ftotal, eFtotal, eamax,e
(29)
式中:Ftotal,e 为逃逸器所受合力;amax,e 为逃逸器最大加速度。
2.3 追踪器增强型策略设计
势函数策略虽能实现多追踪器包围,但因缺乏末段指向控制,切向速度过大,易出现“飞越”现象。为此,为追踪器融合 PNG 法,设计增强型势函数制导策略(Enhanced Potential Field Guidance,EPFG),强化末端追击能力。
PNG 的核心思想是:控制加速度与相对速度和视线角速度的叉积成正比,通过抵消视线角速度实现“视线锁定”,从而快速逼近目标。任一追踪器的控制策略如下:先在虚拟航天器的轨道坐标系下计算追踪器与逃逸器之间的相对状态:
rrel=rerp
(30)
vrel=vevp
(31)
视线单位向量为
l=rrelrrel
(32)
式中:rrel 为追踪器指向逃逸器的相对位置矢量;vrel为追踪器和逃逸器的相对速度矢量;l 为追踪器指向逃逸器的视线方向单位矢量。
视线角速度 ωlos(k) 用于描述视线向量的旋转速率,采用相邻时刻视线单位向量的叉积差分计算并引入一阶低通滤波抑制噪声:
ωlos(k)=αl(k)×l(k1)t+(1α)ωlos(k1)
(33)
式中:k 为当前时刻;t 为积分步长;α 为滤波系数;初始时刻视线角速度为 0。
然后计算追踪器加速度并限幅[25]
apng=N(vrel×ωlos)
(34)
式中:N 为导航系数。
考虑逃逸器对追踪器的吸引力以及追踪器之间的斥力,得到基于人工势场的加速度 ap,再加上基于比例导引的加速度,可以得到合成的追踪器增强型制导加速度指令:
acmd,p=apng+ap
(35)
对加速度进行限幅:
acmd,p=acmd,pacmd,pamax,p
(36)
式中:amax,p 为追踪器最大加速度。
下面分析视线角速度的收敛性。定义李雅普诺夫函数:
V=12ωlosTωlos
(37)
上式满足正定性:V ≥ 0,当且仅当 ωlos= 0时,V= 0。
求导可得:
V˙=ωlosTω˙los
(38)
视线角速度ωlos=rrel×vrelrrel2,其导数为
ω˙los =rrel ×v˙rel rrel 22(rrel vrel )rrel 4(rrel ×vrel )
(39)
进一步化简为
ω˙los=rrel×v˙relrrel22(rrelvrel)rrel2ωlos
(40)
arel= ae-acmd,p 代入,整理可得到:
V˙=ωlosTrrel×(aeap)rrel2(N+2)(rrelvrel)rrel2ωlos2
(41)
其中,aerrelvrel 等均有界,当 ae< ap 时第 1 项是一个有界负值,第 2 项同样为负值,因此上式 V˙ ≤ 0,当且仅当 ωlos= 0 时,V˙= 0,满足负定性。综上可得,增强型策略的视线角速度渐近稳定收敛于零。
3 仿真验证
首先,追踪器和逃逸器均采用普通势函数法进行博弈,得到仿真结果;然后,逃逸器策略保持不变,将追踪器的策略改为增强型策略,再次仿真观察结果。
3.1 势函数法仿真验证
捕获判定条件:任一追踪器与逃逸器的相对距离满足rrel rcapture ,则判定为捕获成功,r capture 为预设捕获半径。
仿真场景参数设定如下:追踪器加速度上限0.050 m/s2,逃逸器加速度上限 0.035 m/s2,地球半径6 378.137 km,参考轨道高度 400 km,取追踪器捕获半径为 200 m,引力系数为 k g= 10,斥力系数 krp=2.5,kre=5,速度势系数 k v=0.5,扰动系数 k d=0.1,追踪器的预测时间为 15 s,势场影响范围[7]Rp=800 m,Re=10 000 m。采用四阶龙格-库塔法进行积分,步长 1 s,仿真时长 1 500 s。
追踪器与逃逸器采用设计的势函数(APF)策略,仿真初始条件设置见表 1[36]
1 初始状态
Tab. 1 Initial state
三维博弈态势如图 4 所示:3 个追踪器呈现接近逃逸器的态势,不过在规定的仿真时间内尚未捕获逃逸器。
4 基于普通势函数法的追逃轨迹
Fig. 4 Trajectories based on the ordinary potential function method
逃逸器与各追踪器的相对状态变化情况如图 5~图 8 所示:从相对距离曲线可见,追踪器 1、追踪器 2 在仿真中段(约 1 200 s)达到最近距离,随后因切向速度过大而出现“飞越”现象,距离再度增大。追踪器 3 的行为类似,但其拐点出现更早,在约800 s 时到达约 1 800 m 处,而后远离。对应的相对速度曲线清晰地显示了该过程:在最近距离处相对速度达到峰值,随后追踪器对逃逸器的相对速度减小。该现象揭示了势函数法在追逃博弈中的固有局限,其产生的吸引力主要驱使追踪器驶向逃逸器当前位置,在轨道相对动力学耦合作用下,追踪器积累了切向速度,最终因无法及时提供足够的径向减速(制动)能力而导致拦截失败。
5 各追踪器与逃逸器相对距离变化(基于普通势函数法)
Fig. 5 Relative distances between the pursuers and the evader(based on the ordinary potential function method)
6 追踪器 1 与逃逸器相对状态变化(基于普通势函数法)
Fig. 6 Variation of relative state between pursuer 1 and the evader (based on the ordinary potential function method)
7 追踪器2 与逃逸器相对状态变化(基于普通势函数法)
Fig. 7 Variation of relative state between pursuer 2 and the evader (based on the ordinary potential function method)
8 追踪器 3 与逃逸器相对状态变化(基于普通势函数法)
Fig. 8 Variation of relative state between pursuer 3 and the evader (based on the ordinary potential function method)
3.2 增强型策略仿真验证
初始状态信息不变,滤波系数为 0.7,导航系数N为 5,将追踪器策略切换为增强型追踪策略,逃逸器采用势函数法进行机动,三维态势轨迹如图 9 所示,可以看到追踪器 1 成功进入逃逸器的捕获范围。
9 基于增强策略的追逃轨迹
Fig. 9 Trajectories based on the enhanced strategy
追踪器与逃逸器的相对态势变化如图 10~图 13 所示,追踪器 1 在 1 236 s 进入了逃逸器捕获范围,其相对距离曲线呈现出“先接近-后平缓-再加速接近”的 3 阶段特征;相对速度曲线分析表明,逃逸器初期通过机动占据速度优势,但追踪器凭借其更大的最大加速度和策略的主动性,在中后期成功逆转了速度态势,快速缩小相对距离直至捕获。追踪器 2 也表现出积极的接近趋势,不过在末端时刻稍显抬头趋势;追踪器 3 虽然在前期快速接近,但在后期(约 1 000 s 后)出现了相对距离增大的情况,这与多智能体协同中的初始布局和控制策略有关。
10 各追踪器和逃逸器的相对距离变化(基于增强策略)
Fig. 10 Relative distances between the pursuers and the evader (based on the enhanced strategy)
11 追踪器 1 与逃逸器的相对状态(基于增强策略)
Fig. 11 Variation of relative state between pursuer 1 and the evader (based on the enhanced strategy)
12 追踪器 2 与逃逸器的相对状态(基于增强策略)
Fig. 12 Variation of relative state between pursuer 2 and the evader (based on the enhanced strategy)
13 追踪器 3 与逃逸器的相对状态(基于增强策略)
Fig. 13 Variation of relative state between pursuer 3 and the evader (based on the enhanced strategy)
4 结束语
针对 LEO 空间多航天器追逃博弈问题,首先使追逃双方均采用基于势函数的控制策略:逃逸器构建多源斥力场和速度保持势的规避模型,追踪器设计超前控制量和协同斥力结合的追击模型,通过仿真观察这种势函数法的优势与局限性;其次针对势函数策略下追踪器末段飞越的局限性,为追踪器融合 PNG 法,构建增强型策略以强化末端接近能力。最终通过 2 组仿真对比表明,APF 生成的控制指令虽利于避障与协同包围,但缺乏末制导所需的指向性和速度控制能力,易出现“飞越”现象,未能完成精确捕获任务;而 PNG 与势函数法相结合提出的增强型追击策略,成功实现了有限时间内的多星协同捕获。
需要注意的是,仿真中参与博弈的航天器都实时获取各方信息,而在现实场景中势必存在时延,时延会导致博弈双方基于过时信息进行决策,影响策略的准确性,这一点也是本文未考虑到的部分;未来可以进一步对存在通信与感知时延、空间不确定扰动等复杂博弈环境进行深入研究,探讨轨道预测与确定,策略生成与执行等问题。
1 惯性系和轨道系
Fig. 1 ECI and LVLH coordinate systems
2 三维 APF 静态避障
Fig. 2 3D APF static obstacle avoidance
3 相对状态信息
Fig. 3 Relative state information
4 基于普通势函数法的追逃轨迹
Fig. 4 Trajectories based on the ordinary potential function method
5 各追踪器与逃逸器相对距离变化(基于普通势函数法)
Fig. 5 Relative distances between the pursuers and the evader(based on the ordinary potential function method)
6 追踪器 1 与逃逸器相对状态变化(基于普通势函数法)
Fig. 6 Variation of relative state between pursuer 1 and the evader (based on the ordinary potential function method)
7 追踪器2 与逃逸器相对状态变化(基于普通势函数法)
Fig. 7 Variation of relative state between pursuer 2 and the evader (based on the ordinary potential function method)
8 追踪器 3 与逃逸器相对状态变化(基于普通势函数法)
Fig. 8 Variation of relative state between pursuer 3 and the evader (based on the ordinary potential function method)
9 基于增强策略的追逃轨迹
Fig. 9 Trajectories based on the enhanced strategy
10 各追踪器和逃逸器的相对距离变化(基于增强策略)
Fig. 10 Relative distances between the pursuers and the evader (based on the enhanced strategy)
11 追踪器 1 与逃逸器的相对状态(基于增强策略)
Fig. 11 Variation of relative state between pursuer 1 and the evader (based on the enhanced strategy)
12 追踪器 2 与逃逸器的相对状态(基于增强策略)
Fig. 12 Variation of relative state between pursuer 2 and the evader (based on the enhanced strategy)
13 追踪器 3 与逃逸器的相对状态(基于增强策略)
Fig. 13 Variation of relative state between pursuer 3 and the evader (based on the enhanced strategy)
1 初始状态
Tab. 1 Initial state
迟嵩禹, 李帅, 王晨, 等. 追逃博弈问题研究综述[J]. 自动化学报, 2025, 51(4): 705-726.
CHI S Y, LI S, WANG C, et al. A review of research on pursuit-evasion games[J]. Acta Automatic Sinica, 2025, 51(4): 705-726.
赵力冉, 党朝辉, 张育林. 空间轨道博弈: 概念、原理与方法[J]. 指挥与控制学报, 2021, 7(3): 215-224.
ZHAO L R, DANG Z H, ZHANG Y L. Orbital game: concepts, principles and methods [J]. Journal of Command and Control, 2021, 7(3): 215-224.
王波兰. 智能博弈趋势下未来空天防御体系展望[J]. 上海航天(中英文), 2021, 38(3): 46-52.
WANG B L. Outlook of future aerospace defense system under the intelligent game trend[J]. Aerospace Shanghai (Chinese & English), 2021, 38(3): 46-52.
ZHENG Z X, BAI Y Z, CHEN Z J, et al. Spacecraft covert maneuvering: Concepts, principles and methods[J]. Journal of Astronautics, 2024, 45(7): 1065-1077.
LIU J R, GONG Q H, ZHAI W J. Intelligent autonomous system and application in aerospace[J]. Flight Control & Detection, 2018, 1(1): 59-62.
CHEN R X, ZHU Y H, YANG L X, et al. Path planning method for quadruped robot in complex mountain environment[J]. Journal of Chinese Inertial Technology, 2024(12): 1250-1257, 1262.
鲜斌, 宋宁. 基于模型预测控制与改进人工势场法的多无人机路径规划[J]. 控制与决策(中英文), 2024, 39(7): 2133-2141.
XIAN B, SONG N. A multiple UAVs path planning method based on model predictive control and improved artificial potential field[J]. Control and Decision (Chinese & English), 2024(7): 2133-2141.
范世鹏, 祁琪, 路坤锋, 等. 基于改进人工势场法的巡航导弹自主避障技术[J]. 北京理工大学学报(中英文), 2018, 38(8): 828-834.
FAN S P, QI Q, LU K F, et al. Autonomous collision avoidance technique of cruise missiles based on modified artificial potential method[J]. Transactions of Beijing Institute of Technology (Chinese & English), 2018, 38(8): 828-834.
SU Z, LIU D Y, SUN D Z, et al. Path parameter consensus-based formation and obstacle avoidance control of autonomous underwater vehicles[J]. Chinese Journal of Intelligent Science and Technology. 2022, 4(4): 533-541.
LI W, ZHANG Y C, NING J, et al. Collision avoidance of under-actuated un manned surface vehicles formation with improved artificial potential field method [J]. Control and Decision, 2025, 40(1): 252-260.
PENICKA R, SCARAMUZZA D. Minimum-time quadrotor waypoint flight in cluttered environments[J]. IEEE Robotics and Automation Letters, 2022, 7(2): 5719-5726.
LUIS C E, VUKOSAVLJEV M, SCHOELLIG A P. Online trajectory generation with distributed model predictive control for multi-robot motion planning[J]. IEEE Robotics and Automation Letters, 2020, 5(2): 604-611.
MOHANAN M G, SALGOANKA R A. A survey of robotic motion planning in dynamic environments[J]. Robotics & Autonomous Systems, 2018, 100: 171-185.
STODOLA P, NOHEL J. Adaptive ant colony optimization with node clustering for the multidepot vehicle routing problem[J]. IEEE Transactions on Evolutionary Computation, 2023, 27(6): 1866-1880.
PAN Y W, LI M, ZENG X G, et al. AUV obstacle avoidance and path planning based on artificial potential field and improved reinforcement learning[J]. Acta Armamentarii, 2025, 46(4): 72-83.
刘冰雁, 叶雄兵, 方胜良, 等. 基于 Frenet 和改进人工势场的在轨规避路径自主规划[J]. 北京航空航天大学学报, 2021, 47(4): 731-741.
LIU B Y, YE X B, FANG S L, et al. Autonomous planning of on-orbit evasion path based on Frenet and improved artificial potential field[J]. Journal of Beijing University of Aeronautics and Astronautics, 2021, 47(4): 731-741.
高鹏, 罗建军. 航天器规避动态障碍物的自适应人工势函数制导[J]. 中国空间科学技术, 2012, 32(5): 1-8.
GAO P, LUO J J. Adaptive artificial potential function guidance for dynamic obstacle avoidance of spacecraft[J]. Chinese Space Science and Technology, 2012, 32(5): 1-8.
周昊, 党朝辉. 适应于障碍物真实结构的航天器集群避障运动控制[J]. 航天控制, 2022, 40(6): 23-29.
ZHOU H, DANG Z H. Spacecraft cluster obstacle avoidance control adapted to the specific structure of obstacle[J]. Aerospace Control, 2022, 40(6): 23-29.
郭威, 常远, 程芳, 等. 基于深度强化学习智能制导的研究思考[EB/OL]. (2025-05-20)[2025‐09‐05]. https://link. cnki. net/urlid/11. 3019. TJ. 20250520. 1341. 002.
GUO W, CHANG Y, CHENG F, et al. Research and reflection on intelligent guidance based on deep rein‐ forcement learning [EB/OL]. (2025-05-20) [2025‐09‐05]. https://link.cnki.net/urlid/11.3019.TJ.20250520.1341.002.
LÜ J H, YU J L, DONG X W. New progress in cooperative guidance for aircraft swarm system[J]. Acta Automatica Sinica, 2025, 51(4): 727-743
唐进, 王一书, 梁彦刚, 等. 智能寻的制导律研究综述[J]. 系统工程与电子技术, 2025, 47(12): 4117-4129.
TANG J, WANG Y S, LIANG Y G, et al. Research review of intelligent homing guidance law[J]. Systems Engineering and Electronics, 2025, 47(12): 4117-4129.
黄波, 杨俊. 基于比例导引法的鱼雷声自导导引弹道仿真分析[J]. 舰船科学技术, 2024, 46(21): 186-189.
HUANG B, YANG J. Acoustic homing torpedo’s trajectory simulation based on proportional navigation method[J]. Ship Science and Technology, 2024, 46(21): 186-189.
穆宝明, 程健庆, 潘峰. 基于模糊控制的鱼雷自导组合导引律[J]. 水下无人系统学报, 2024, 32(6): 1039-1044.
MU B M, CHENG J Q, PAN F. Combined homing guidance law of torpedo based on fuzzy control[J]. Journal of Unmanned Undersea Systems, 2024, 32(6): 1039-1044.
郭征, 李国飞, 熊华, 等. 考虑攻击时间与区域封控的协同制导方法[J]. 系统仿真学报, 2025, 37(11): 2714-2723.
GUO Z, LI G F, XIONG H, et al. Cooperative guidance method with impact time and area sealing[J]. Journal of System Simulation, 2025, 37(11): 2714-2723.
李健, 刘鹏, 喻小昊, 等. 基于变幂次滑模的三维固定时间的多导弹打击比例导引律[J]. 兵工学报, 2025, 46(7): 284-294.
LI J, LIU P, YU X H, et al. Three-dimensional fixedtime attack proportional guidance law based on variable power sliding mode for multiple missiles[J]. Acta Armamentarii, 2025, 46(7): 284-294.
CHENG Y F, LIU Z S, DU J P, et al. Multi-constraint guidance law based on improved proportional navigation and deep learning under limited field-of-view [J]. Unmanned Systems Technology, 2024, 7(5): 47-53.
王英杰, 袁利, 汤亮, 等. 信息非完备下多航天器轨道博弈强化学习方法[J]. 宇航学报, 2023, 44(10): 1522-1533.
WANG Y J, YUAN L, TANG L, et al. Reinforcement learning method for multi-spacecraft orbital game with incomplete information[J]. Journal of Astronautics, 2023, 44(10): 1522-1533.
许旭升, 党朝辉, 宋斌, 等. 基于多智能体强化学习的轨道追逃博弈方法[J]. 上海航天(中英文), 2022, 39(2): 24-31.
XU X S, DANG Z H, SONG B, et al. Method for cluster satellite orbit pursuit-evasion game based on multi-agent deep deterministic policy gradient algorithm[J]. Aerospace Shanghai (Chinese & English), 2022, 39(2): 24-31.
李鹤宇, 王建斌, 张锐, 等. 针对机动目标的航天器固定时间协同制导律[EB/OL]. (2024-09-02)[2025‐09‐05]. https://link. cnki. net/urlid/44. 1240. TP. 20240902. 09 01. 002.
LI H Y, WANG J B, ZHANG R, et al. Fixed time con‐ vergence spacecraft cooperative guidance law for maneu‐ vering target[EB/OL]. (2024-09-02)[2025‐09‐05]. https://link.cnki.net/urlid/44.1240.TP.20240902.0901.002.
李尚恒, 刘昊, 任梓铭, 等. 基于强化学习方法的多智能体追逃博弈任务分配[J]. 中国科学: 技术科学, 2025, 55(5): 906-913.
LI S H, LIU H, REN Z M, et al. Task assignment in multi-agent games via reinforcement learning [J]. Scientia Sinica(Technologica), 2025, 55(5): 906-913.
ZHANG B L, MA Y Q, LIU L. A method of UAV collaboration based on distributional multi-agent reinforcement learning[J]. Modern Radar, 2023, 45(12): 94-101.
YANG S H, ZHANG D, REN Z, et al. Research on UAV swarm confrontation method based on multiagent reinforcement learning[J]. Unmanned Systems Technology, 2022, 5(5): 51-62.
周文卿, 朱纪洪, 匡敏驰, 等. 基于预知博弈树的多无人机群智协同空战算法[J]. 中国科学: 技术科学, 2023, 53(2): 187-199.
ZHOU W Q, ZHU J H, KUANG M C, et al. Multi-UAV cooperative swarm algorithm in air combat based on predictive game tree[J]. Scientia Sinica(Technologica), 2023, 53(2): 187-199.
ZHU Y W, ZHANG C M, YANG F Y, et al. Survey on dynamics and control problem research in spacecraft orbital pursuit-evasion game[J]. Journal of National University of Defense Technology, 2024, 46(3): 1-11.
张明明, 戴月明, 吴定会. 正态变异优胜劣汰的混合蛙跳算法[J]. 计算机应用, 2016, 36(6): 1583-1587.
ZHANG M M, DAI Y M, WU D H. Novel survival of the fittest shuffled frog leaping algorithm with normal mutation[J]. Journal of Computer Applications, 2016, 36(6): 1583-1587.
祝海. 基于微分对策的航天器轨道追逃最优控制策略[D]. 长沙: 国防科技大学, 2017.
ZHU H. Optimal control of spacecraft orbital pursuitevasion based on differential game [D]. Changsha: National University of Defense Technology, 2017.