摘要
针对近地轨道(LEO)空间中的多航天器轨道博弈问题,提出了一种基于人工势场的博弈方法。首先,博弈双方均采用势函数策略进行博弈,针对逃逸器设计基于多源斥力场和速度保持势的综合规避算法,采用追踪器设计预测势场与协同斥力场结合的分布式包围策略;然后其逃逸器策略不变,为追踪器设计融合比例导引(PNG)的增强型接近策略,强化末段追击精度。仿真验证表明:势函数法可实现多追踪器对逃逸器的初步包围,但因缺乏末段指向性导致“飞越”,未能捕获逃逸器;增强型追击策略可以提高追踪器末端接近能力,使得追踪器在 1236 s 成功捕获逃逸器。
Abstract
To address the multi-spacecraft orbital game problem in low Earth orbit (LEO),an artificial potential field (APF)-based approach for games is proposed. First,both the game players adopt potential-field strategies:the evader implements a composite avoidance algorithm that integrates multi-source repulsive fields and a velocity-retention potential,while the pursuers implement a distributed encirclement strategy combining predictive potential fields with inter-pursuer repulsive forces.Second,while the evader’s strategy remains unchanged,an enhanced terminal strategy integrating proportional navigation guidance (PNG)is designed for the pursuers to improve the endgame accuracy.The simulation results indicate that the potential-field method enables the pursuers to achieve preliminary encirclement of the evader;however,due to a lack of terminal directivity,capture is not achieved,and the pursuers experience a flyby.In contrast,the enhanced pursuit strategy significantly improves the terminal approach performance,allowing the pursuers to successfully capture the evader at 1 236 s
0 引言
近年来,近地轨道(Low Earth Orbit,LEO)作为太空资源开发与航天任务实施的核心区域,其资源竞争与空间拥挤态势日益加剧,轨道碰撞风险与非合作目标处置需求同步攀升[1-3]。在此背景下,航天器任务场景已从传统的空间碎片清除、失效卫星回收等非对抗性操作,逐步拓展至具备自主机动能力的对抗性博弈场景,此类场景中,追踪器 P(Pursuer)和逃逸器 E(Evader)的动态策略博弈及多智能体协同决策,已成为制约任务成功率的重要瓶颈,构建适配多航天器博弈场景的高效制导方法十分重要[4-5]。
人工势场法(Artificial Potential Field,APF)作为一种经典的路径规划方法,已被广泛应用于无人机、无人车、机器人的避障与路径规划。CHEN 等[6]通过坡度势能改进势函数,提升了四足机器人在复杂山地环境的地形适应与路径规划能力;鲜斌等[7]将模型预测控制与 APF 融合,解决了多无人机在动态障碍物场景下的航迹协同问题;范世鹏等[8]采用连续可微对数函数构造势场,有效消除了传统方法易陷入的局部极小值陷阱;文献[9-10]则分别针对水下机器人编队控制与欠驱动无人船协同避碰场景,通过势函数与约束条件的结合优化控制律设计;文献[11-15]进一步围绕动态环境适配、复杂地形适应等需求,提出了多类势场改进方案。研究方向拓展到航天器领域,刘冰雁等[16]结合 Frenet 坐标系改进势场函数,解决了航天器静态规避中的轨迹偏离问题;高鹏等[17]通过引入修正项优化人工势函数制导,实现了追踪航天器对动态障碍物的规避;周昊等[18]针对信息不完全场景,设计了基于几何势场的控制律,提升了避障鲁棒性。但上述方法聚焦于航天器的静态避障任务,未涉及多航天器动态博弈决策。
在制导方法领域,比例导引(Proportional Navigation Guidance,PNG)作为经典拦截制导技术,其通过控制加速度与视线角速度的关联实现“视线锁定”,在航空器、导弹、鱼雷等对抗性场景中应用广泛[19-20]。唐进等[21]指出,PNG 是近程拦截任务的基础制导律,其衍生的增强型算法已成为多约束制导的重要框架。黄波等[22]基于 PNG 开展鱼雷声自导弹道仿真,验证了其对机动目标的快速逼近能力;穆宝明等[23]将模糊控制与 PNG 结合,设计鱼雷自导组合导引律,提升了复杂水声环境下的拦截鲁棒性。针对多目标场景,郭征等[24]提出考虑攻击时间与区域封控的协同导引方法,实现了多导弹对目标的同步拦截;李健等[25]基于变幂次滑模设计固定时间多导弹导引律,解决了多智能体时间一致性与拦截精度的平衡问题。然而,传统 PNG 及衍生算法的局限在于“单对单”指向性优化[26],并且导弹等航空器具备高机动速度,将制导方法直接应用于航天器轨道博弈场景仍需适配性修正。
航天器轨道博弈问题区别于地面、低空平台,需在轨道动力学约束下,实现多智能体的动态策略优化。在智能算法方向,王英杰等[27]针对信息不完备场景,提出基于强化学习的多航天器轨道博弈方法;许旭升等[28]则通过多智能体强化学习优化轨道追逃策略,通过算法优化提升了策略的协同性;LI 等[29]针对机动目标,设计了固定时间协同制导律,确保了收敛时间的上限约束;李尚恒等[30]基于强化学习的任务分配研究,分别从时序优化和资源调度层面深化了多智能体博弈的理论框架;在非航天领域的多智能体协同方法[31-33],对解决航天器协同围捕问题具有重要的参考价值。但是上述大模型训练方法需大量在轨数据支撑,实时性与工程适用性仍需验证[34]。
综上所述,APF 在多智能体协同包围与避障中具备天然优势,但应用于动态对抗场景较少;各种制导方法虽能保障拦截精度,但在实现多航天器的协同决策上还需验证。为此,本文针对 LEO 多航天器追逃博弈问题,采用势函数法并结合制导律方法,以期实现多追踪器对逃逸器的协同捕获,为航天器对非合作目标的在轨交会抵近提供参考。
1 基本原理
1.1 坐标系与运动方程
1)地心惯性(Earth Centered Inertial Coordinate System,ECI)坐标系:以地心为原点,基本面为平赤道平面,z 轴沿着地球自转轴指向地球北极,x 轴与 y 轴垂直并位于赤道平面内,x 轴指向春分点,三轴构成右手正交坐标系(OXYZ)。
2)第一轨道坐标系,也称 LVLH(Local Vertical Local Horizontal)坐标系:以航天器质心为原点,x 轴沿着地心指向航天器质心方向,z轴沿着航天器轨道面的法向,y轴沿着航天器迹向,三轴构成右手正交坐标系(oxyz),惯性系和轨道系如图 1所示。
图
1
惯性系和轨道系
Fig.
1
ECI and LVLH coordinate systems
假设参考轨道为圆轨道,忽略地球高阶摄动项,通过泰勒展开化简得到基于 Clohessy-Wiltshire方程(C-W 方程)建立的空间飞行器相对运动模型:
(1)
式中:(x,y,z)∈ R3 为航天器在目标航天器轨道坐标系中的三维位置; 为航天器在目标航天器轨道坐标系中的速度矢量; 为轨道角速度,μ 为地球引力常数;ai 为控制加速度的各轴分量。
该式在圆轨道或近圆轨道、航天器之间相对距离较小的情况下,计算精度可以满足绝大部分动力学要求。航天器相对状态量为 ,控制加速度为 U=(ax,ay,az)T,航天器相对运动状态空间表达式为
(2)
(3)
(4)
式中:A 为状态矩阵;B 为输入矩阵。
采用龙格-库塔法进行积分求解:
(5)
式中:Xk + 1、Xk 分别为第 k+ 1、k 时刻的状态向量;Uk 为第 k 时刻的航天器控制加速度。
1.2 APF 原理
APF 的基本思想是在障碍物周围建立斥力场,在目标点(到达点)周围建立引力场,被控对象在复合势场中搜索无碰撞路径。
1)引力势场
引力势场与被控对象、目标点的距离有关,距离越大,被控对象的势能值越大,引力势场函数为
(6)
对应引力为势场的负梯度,方向从被控对象指向目标点:
(7)
式中:k g 为引力常数;r 1 为被控对象的位置矢量;r goal为设置的引力点位置矢量;Ug 为引力势函数;Fg 为被控对象所受引力。
2)斥力势场
当被控对象未进入障碍物影响范围时,斥力为零,当被控对象进入障碍物影响范围后,距离越小,斥力势能值越大,斥力势场函数为
(8)
对应斥力为势场的负梯度,斥力方向为障碍物指向被控对象:
(9)
式中:Ur 为斥力势场函数;Fr 为被控对象所受斥力;kr 为斥力常数;ρ 为航天器与障碍物之间的距离差;ρ0 为障碍物的影响半径;r 2 为航天器的位置矢量;r obs 为障碍物的位置矢量;γ 为斥力衰减因子[16]。
3)此时合力势场为
(10)
(11)
(12)
式中:η 为扰动幅值系数;rand()为随机函数。
因此总合力为
(13)
1.3 仿真
基于一般性 APF 原理,进行三维避障仿真。设定起始点(0,0,0)与目标点(100,100,80),在 2 点连线周围随机生成 10 个障碍物,引力常数 k g 取 10,斥力常数 kr 取 8,斥力衰减因子 γ 取 0.001,扰动幅值系数 η 取 0.1,障碍物影响范围 ρ0 取 35,碰撞半径取 2。得到避障结果如图 2 所示,被控对象可以通过静态障碍区,到达目标点。
图
2
三维 APF 静态避障
Fig.
2
3D APF static obstacle avoidance
2 多星追逃博弈控制策略设计
设定 3 颗追踪器围捕 1 颗逃逸器的场景,航天器通过持续的推力输出完成轨道调整,不考虑燃料续航限制,在 400 km 轨道上取一个虚拟航天器作为轨道坐标系的原点,然后在该相对坐标系下给出航天器的初始状态信息:Xe=[ r e,ve ]T,Xpi=[ r pi,vpi]T,(i = 1,2,3)。相对状态信息如图 3所示。
图
3
相对状态信息
Fig.
3
Relative state information
博弈控制目标:追踪器通过协同策略缩小与逃逸器的相对距离,直至满足捕获条件,同时避免追踪器之间发生碰撞;逃逸器基于规避策略突破包围,尽可能延长被捕获时间或避免被捕获。
2.1 追踪器势函数法策略设计
1)引力势场:以逃逸器为引力点,同时引入超前控制量预测逃逸器机动位置,避免传统 APF 的滞后问题。任一追踪器受到逃逸器的当前引力势场为
(14)
式中:r e 为逃逸器当前位置;r p 为追踪器当前位置。
引力为
(15)
追踪器基于逃逸器的当前状态预测其未来一定时间 tpred 后的位置,增加超前控制量:
(16)
式中:r e,pred 为逃逸器的预测位置;ve 为逃逸器当前速度。
预测点的势场为
(17)
只考虑当前位置会使追踪器在末端追不上逃逸器,只考虑预测量又使得追踪器过于前置,因此将追踪器的合力考虑为当前量和预测量的结合:
(18)
2)斥力势场:以其他追踪器为斥力源,保持追踪器的协同包围态势,避免碰撞,斥力势场为
(19)
斥力为
(20)
式中:krp 为追踪器之间的斥力系数;Rp 为追踪器之间的斥力影响范围;r pi 为当前追踪器位置;r pm 为其他追踪器位置。
故追踪器采取 APF 的总合力为
(21)
综合加速度为
(22)
式中:Ftotal,p 为追踪器所受合力;amax,p 为追踪器最大加速度。
2.2 逃逸器势函数法策略设计
在势场函数影响范围内,每个追踪器对逃逸器产生斥力,斥力幅值随相对距离减小而增大:
(23)
(24)
式中:kre 为追踪器对逃逸器的斥力系数;Re 为追踪器对逃逸器的斥力影响范围;r e 为逃逸器的位置矢量;r pi为追踪器的位置矢量。
针对航天器轨道动力学特性,为逃逸器新增速度保持势以避免速度失稳:
(25)
(26)
式中:k v 为逃逸器速度势系数;ve(n)为当前时刻逃逸器速度;ve(n-1)为上一时刻逃逸器速度。
由于势函数法容易陷入局部最优,因此需要加入虚拟力改进这一情况,当检测到合力时加入随机力[35]突破局部最优:
(27)
式中:k d 为扰动力系数。
故逃逸器的总控制力为
(28)
进而得到逃逸器的加速度:
(29)
式中:Ftotal,e 为逃逸器所受合力;amax,e 为逃逸器最大加速度。
2.3 追踪器增强型策略设计
势函数策略虽能实现多追踪器包围,但因缺乏末段指向控制,切向速度过大,易出现“飞越”现象。为此,为追踪器融合 PNG 法,设计增强型势函数制导策略(Enhanced Potential Field Guidance,EPFG),强化末端追击能力。
PNG 的核心思想是:控制加速度与相对速度和视线角速度的叉积成正比,通过抵消视线角速度实现“视线锁定”,从而快速逼近目标。任一追踪器的控制策略如下:先在虚拟航天器的轨道坐标系下计算追踪器与逃逸器之间的相对状态:
(30)
(31)
视线单位向量为
(32)
式中:rrel 为追踪器指向逃逸器的相对位置矢量;vrel为追踪器和逃逸器的相对速度矢量;l 为追踪器指向逃逸器的视线方向单位矢量。
视线角速度 ωlos(k) 用于描述视线向量的旋转速率,采用相邻时刻视线单位向量的叉积差分计算并引入一阶低通滤波抑制噪声:
(33)
式中:k 为当前时刻;t 为积分步长;α 为滤波系数;初始时刻视线角速度为 0。
然后计算追踪器加速度并限幅[25]:
(34)
式中:N 为导航系数。
考虑逃逸器对追踪器的吸引力以及追踪器之间的斥力,得到基于人工势场的加速度 ap,再加上基于比例导引的加速度,可以得到合成的追踪器增强型制导加速度指令:
(35)
对加速度进行限幅:
(36)
式中:amax,p 为追踪器最大加速度。
下面分析视线角速度的收敛性。定义李雅普诺夫函数:
(37)
上式满足正定性:V ≥ 0,当且仅当 ωlos= 0时,V= 0。
求导可得:
(38)
视线角速度,其导数为
(39)
进一步化简为
(40)
把 arel= ae-acmd,p 代入,整理可得到:
(41)
其中,ae、rrel、vrel 等均有界,当 ae< ap 时第 1 项是一个有界负值,第 2 项同样为负值,因此上式 ≤ 0,当且仅当 ωlos= 0 时,= 0,满足负定性。综上可得,增强型策略的视线角速度渐近稳定收敛于零。
3 仿真验证
首先,追踪器和逃逸器均采用普通势函数法进行博弈,得到仿真结果;然后,逃逸器策略保持不变,将追踪器的策略改为增强型策略,再次仿真观察结果。
3.1 势函数法仿真验证
捕获判定条件:任一追踪器与逃逸器的相对距离满足,则判定为捕获成功,r capture 为预设捕获半径。
仿真场景参数设定如下:追踪器加速度上限0.050 m/s2,逃逸器加速度上限 0.035 m/s2,地球半径6 378.137 km,参考轨道高度 400 km,取追踪器捕获半径为 200 m,引力系数为 k g= 10,斥力系数 krp=2.5,kre=5,速度势系数 k v=0.5,扰动系数 k d=0.1,追踪器的预测时间为 15 s,势场影响范围[7]Rp=800 m,Re=10 000 m。采用四阶龙格-库塔法进行积分,步长 1 s,仿真时长 1 500 s。
追踪器与逃逸器采用设计的势函数(APF)策略,仿真初始条件设置见表 1[36]。
表
1
初始状态
Tab.
1
Initial state
三维博弈态势如图 4 所示:3 个追踪器呈现接近逃逸器的态势,不过在规定的仿真时间内尚未捕获逃逸器。
图
4
基于普通势函数法的追逃轨迹
Fig.
4
Trajectories based on the ordinary potential function method
逃逸器与各追踪器的相对状态变化情况如图 5~图 8 所示:从相对距离曲线可见,追踪器 1、追踪器 2 在仿真中段(约 1 200 s)达到最近距离,随后因切向速度过大而出现“飞越”现象,距离再度增大。追踪器 3 的行为类似,但其拐点出现更早,在约800 s 时到达约 1 800 m 处,而后远离。对应的相对速度曲线清晰地显示了该过程:在最近距离处相对速度达到峰值,随后追踪器对逃逸器的相对速度减小。该现象揭示了势函数法在追逃博弈中的固有局限,其产生的吸引力主要驱使追踪器驶向逃逸器当前位置,在轨道相对动力学耦合作用下,追踪器积累了切向速度,最终因无法及时提供足够的径向减速(制动)能力而导致拦截失败。
图
5
各追踪器与逃逸器相对距离变化(基于普通势函数法)
Fig.
5
Relative distances between the pursuers and the evader(based on the ordinary potential function method)
图
6
追踪器 1 与逃逸器相对状态变化(基于普通势函数法)
Fig.
6
Variation of relative state between pursuer 1 and the evader (based on the ordinary potential function method)
图
7
追踪器2 与逃逸器相对状态变化(基于普通势函数法)
Fig.
7
Variation of relative state between pursuer 2 and the evader (based on the ordinary potential function method)
图
8
追踪器 3 与逃逸器相对状态变化(基于普通势函数法)
Fig.
8
Variation of relative state between pursuer 3 and the evader (based on the ordinary potential function method)
3.2 增强型策略仿真验证
初始状态信息不变,滤波系数为 0.7,导航系数N为 5,将追踪器策略切换为增强型追踪策略,逃逸器采用势函数法进行机动,三维态势轨迹如图 9 所示,可以看到追踪器 1 成功进入逃逸器的捕获范围。
图
9
基于增强策略的追逃轨迹
Fig.
9
Trajectories based on the enhanced strategy
追踪器与逃逸器的相对态势变化如图 10~图 13 所示,追踪器 1 在 1 236 s 进入了逃逸器捕获范围,其相对距离曲线呈现出“先接近-后平缓-再加速接近”的 3 阶段特征;相对速度曲线分析表明,逃逸器初期通过机动占据速度优势,但追踪器凭借其更大的最大加速度和策略的主动性,在中后期成功逆转了速度态势,快速缩小相对距离直至捕获。追踪器 2 也表现出积极的接近趋势,不过在末端时刻稍显抬头趋势;追踪器 3 虽然在前期快速接近,但在后期(约 1 000 s 后)出现了相对距离增大的情况,这与多智能体协同中的初始布局和控制策略有关。
图
10
各追踪器和逃逸器的相对距离变化(基于增强策略)
Fig.
10
Relative distances between the pursuers and the evader (based on the enhanced strategy)
图
11
追踪器 1 与逃逸器的相对状态(基于增强策略)
Fig.
11
Variation of relative state between pursuer 1 and the evader (based on the enhanced strategy)
图
12
追踪器 2 与逃逸器的相对状态(基于增强策略)
Fig.
12
Variation of relative state between pursuer 2 and the evader (based on the enhanced strategy)
图
13
追踪器 3 与逃逸器的相对状态(基于增强策略)
Fig.
13
Variation of relative state between pursuer 3 and the evader (based on the enhanced strategy)
4 结束语
针对 LEO 空间多航天器追逃博弈问题,首先使追逃双方均采用基于势函数的控制策略:逃逸器构建多源斥力场和速度保持势的规避模型,追踪器设计超前控制量和协同斥力结合的追击模型,通过仿真观察这种势函数法的优势与局限性;其次针对势函数策略下追踪器末段飞越的局限性,为追踪器融合 PNG 法,构建增强型策略以强化末端接近能力。最终通过 2 组仿真对比表明,APF 生成的控制指令虽利于避障与协同包围,但缺乏末制导所需的指向性和速度控制能力,易出现“飞越”现象,未能完成精确捕获任务;而 PNG 与势函数法相结合提出的增强型追击策略,成功实现了有限时间内的多星协同捕获。
需要注意的是,仿真中参与博弈的航天器都实时获取各方信息,而在现实场景中势必存在时延,时延会导致博弈双方基于过时信息进行决策,影响策略的准确性,这一点也是本文未考虑到的部分;未来可以进一步对存在通信与感知时延、空间不确定扰动等复杂博弈环境进行深入研究,探讨轨道预测与确定,策略生成与执行等问题。